프롬프트 캐시 5분 TTL의 함정: 캐시 적중률이 비용보다 먼저 무너진다
Anthropic이 프롬프트 캐싱 1시간 TTL을 정식 옵션으로 열면서 긴 시스템 프롬프트·도구 정의·few-shot 블록을 반복 호출에서 90% 싸게 재사용할 수 있게 됐다. 핵심은 캐시 쓰기에 25%(5분)·100%(1시간) 프리미엄이 붙고, 읽기는 0.1배라는 비대칭 구조다. 그래서 캐시는 '읽기 횟수가 쓰기 비용을 상쇄할 만큼 자주, TTL 안에 다시 들어오는가'로 판단해야 한다. 실무에서 자주 깨지는 지점은 캐시 브레이크포인트 뒤에 타임스탬프나 사용자 ID 같은 가변 토큰을 한 줄 끼워 넣는 것으로, 접두사 해시가 통째로 어긋나 캐시가 매번 미스 난다. 캐시 가능한 정적 블록을 앞에, 가변 컨텍스트를 뒤에 배치하는 순서 규율이 비용 그래프를 바꾼다.
한국 개발자에게는 RAG·에이전트처럼 시스템 프롬프트가 길고 호출이 잦은 서비스일수록 캐시 순서 설계가 토큰 단가보다 큰 비용 레버다. 가변 토큰을 캐시 경계 뒤로 미는 것만으로 적중률이 살아난다.
원문 출처
Anthropic Docs — Prompt Caching