컨텍스트 로트(Context Rot): 긴 컨텍스트는 '더 넣으면 더 좋다'가 아니다
Context Rot & Context Engineering for LLM Agents
Chroma 연구진(2025-07)이 18개 모델(Claude/GPT/Gemini/Qwen)을 측정해 보인 핵심은, LLM이 컨텍스트를 균일하게 처리한다는 통념이 틀렸다는 것이다. 입력 길이가 늘면 단순 과제에서도 성능이 의미 있게 떨어진다(컨텍스트 로트). 발견: ①질문-정답의 의미 유사도가 낮을수록 길이가 길어질 때 더 빨리 무너진다 ②distractor(방해 문장)는 하나만 있어도 성능을 깎고, 4개면 가중된다(이때 Claude가 환각률 최저, GPT가 최고) ③반직관적으로 구조가 잘 잡힌 haystack보다 섞인(shuffled) haystack에서 더 잘 찾는다 — 구조적 패턴이 어텐션을 교란한다는 뜻. 원인 중 하나로 대부분 모델이 쓰는 RoPE 위치 인코딩의 감쇠 효과가 지목된다. 그래서 부상한 분야가 '컨텍스트 엔지니어링': 전부 욱여넣지 말고 매 스텝 필요한 정보만 동적으로 조립하는 설계다. 대표 기법이 컨텍스트 컴팩션(한도 근처에서 내용을 요약→새 윈도우 재시작)과 검색 기반 선별 주입이며, 엔터프라이즈 AI의 70% 이상이 장기 세션 에이전트라는 점에서 필수가 됐다.
'컨텍스트 윈도우가 200K니까 다 넣자'는 접근이 오히려 정확도를 떨어뜨린다는 실측 증거다. RAG는 토큰 한도 절약 기술이 아니라 컨텍스트 로트를 막는 정확도 기술로 재정의된다 — distractor를 걸러내고 관련 청크만 주입하는 검색·리랭킹이 '긴 컨텍스트 모델이 나오면 RAG는 죽는다'는 주장의 반례가 된 셈이다. 에이전트를 만든다면 윈도우를 채우기 전에 컴팩션·요약·선별 주입 루프를 먼저 설계해야 한다.
원문 출처
Chroma Research