[설명] 캐시 프리픽스 설계로 프롬프트 캐싱 입력 비용 90% 줄이기
Prompt Caching and Token Efficiency
긴 시스템 프롬프트나 문서를 매 호출 그대로 다시 보내면 입력 토큰 비용이 누적된다. 프롬프트 캐싱은 변하지 않는 앞부분(프리픽스)을 캐시해 캐시된 입력 비용을 약 90%까지 낮춘다. 설계 원칙은 단순하다. 고정적인 부분(시스템 지시, 도구 정의, 참조 문서)을 프롬프트 앞쪽에 모으고, 사용자별로 바뀌는 내용은 뒤로 빼서 캐시 프리픽스를 최대화하는 것이다. Claude의 경우 2026년 2월 5일부터 캐시가 조직이 아닌 워크스페이스 단위로 격리되어 같은 조직 내 워크스페이스 간 데이터가 분리된다. Opus 4.5+·Sonnet 4.6+에서는 이전 thinking 블록이 기본 보존되어 캐시 프리픽스에 포함된다. 대화가 윈도우나 예산을 넘길 만큼 길어질 때는 컨텍스트 컴팩션(베타)으로 한 번 요약 비용을 치르고 이후 작은 컨텍스트를 들고 가는 선택지도 있다.
RAG·에이전트처럼 같은 컨텍스트를 반복 호출하는 한국 서비스에서 캐시 프리픽스 설계만 바꿔도 월 비용을 크게 줄일 수 있다.
원문 출처
Claude API Docs