Anthropic이 푼 '컨텍스트 압축'의 실체: 에이전트 메모리는 요약이 아니라 구조다
장기 실행 에이전트가 200K 윈도우를 다 채우면 비용·지연이 폭증하고 추론 품질이 무너진다. Anthropic이 공개한 컨텍스트 엔지니어링 가이드의 핵심은 단순 요약이 아니라 세 층으로 나누는 것이다. 첫째, 도구 호출 결과 같은 부피 큰 토큰은 외부 파일·DB에 적재하고 핸들만 컨텍스트에 남긴다. 둘째, 누적된 히스토리는 일정 구간마다 구조화된 메모(완료 작업·미해결 결정·다음 행동)로 치환한다. 셋째, 압축 시점을 모델이 스스로 판단하지 않게 하니스가 토큰 임계치로 강제한다. 핵심 트레이드오프는 압축이 곧 정보 손실이라는 점이다. 무엇을 버릴지 결정하는 메모 스키마 설계가 에이전트 성능을 좌우하며, 요약 LLM을 한 번 더 태우면 비용이 줄어드는 대신 환각이 메모리에 영구 각인되는 위험이 생긴다.
한국 개발자가 Claude나 GPT 기반 자율 에이전트를 운영한다면, 윈도우를 키우는 것보다 '무엇을 컨텍스트 밖으로 빼고 무엇을 메모로 남길지' 스키마부터 설계해야 비용과 품질을 동시에 잡는다.
원문 출처
Anthropic Engineering