Claude API 프롬프트 캐싱 워크스페이스 격리 전환, 반복 컨텍스트 비용 최대 90% 절감
Prompt caching — Claude API Docs
Anthropic의 Claude API 프롬프트 캐싱이 2026년 2월부터 조직 단위가 아닌 워크스페이스 단위 격리로 바뀌었다. 같은 조직 안에서도 워크스페이스 간 캐시가 분리돼 데이터 경계가 명확해진다. 캐시 읽기 비용은 표준 입력가의 10% 수준이라 동일 컨텍스트를 반복 주입할 때 최대 90%를 아낄 수 있고, 기본 5분 TTL 외에 추가 비용으로 1시간 캐시도 선택할 수 있다. 긴 시스템 프롬프트, 도구 정의, RAG로 끌어온 문서 블록처럼 매 호출 동일하게 들어가는 앞부분에 cache breakpoint를 두는 것이 핵심 패턴이다. 여기에 Batch API(입·출력 50% 할인), 모델 라우팅, 컨텍스트 편집(오래된 도구 결과·thinking 블록 정리)을 결합하면 에이전트 워크로드의 토큰 비용 구조를 크게 바꿀 수 있다. 한국 팀이 다회전 대화형 서비스를 운영한다면 캐시 적중률을 KPI로 잡을 만하다.
에이전트와 RAG 서비스의 운영비 대부분이 반복 입력 토큰에서 나오므로, 캐싱 설계가 곧 마진과 직결된다.
원문 출처
Anthropic