도구 50개를 붙였더니 정확도가 떨어졌다: 에이전트의 도구 선택 한계
MCP 생태계가 커지면서 한 에이전트에 수십 개의 도구 서버를 한꺼번에 물리는 구성이 흔해졌지만, 도구 수가 늘수록 선택 정확도가 꺾인다는 분석이 잇따른다. 원인은 두 갈래다. 첫째, 모든 도구의 description이 컨텍스트에 상주하면서 입력 토큰을 잠식하고 비슷한 이름의 도구끼리 혼동을 유발한다. search_user와 find_user, get_account가 한 네임스페이스에 같이 있으면 모델은 미묘하게 틀린 도구를 고른다. 둘째, 선택 폭이 넓을수록 모델이 불필요한 도구를 호출하는 '도구 환각'이 늘어난다. 대응으로 떠오른 패턴이 도구 라우팅 계층이다. 작업 단계마다 관련 도구 5~10개만 노출하고, 검색형 메타 도구로 필요할 때만 나머지를 끌어오는 방식이다. Anthropic의 도구 검색 도구 패턴이나 단계별 도구 게이팅이 같은 문제의식에서 나왔다. 도구는 많을수록 좋은 게 아니라, 한 결정 시점에 보이는 도구가 적을수록 정확해진다.
한국 개발자에게는 사내 API를 전부 MCP로 노출하기 전에, 작업별로 도구를 게이팅하는 라우팅 계층을 먼저 설계해야 정확도와 토큰 비용 양쪽을 잡을 수 있다는 신호다.
원문 출처
Anthropic Engineering