[상록] 1% 오류가 63% 실패로: 에이전트는 왜 관측·평가가 동시에 필요한가
Agent Observability & Evaluation: Why Both Matter
프로덕션 에이전트는 확률적으로 동작하고, 도구를 동적으로 고르며, 비결정적 출력을 다단계로 연쇄한다. 이때 단계당 1% 오류율이 누적되면 전체 실패 확률이 약 63%까지 치솟는다 — 이 '순차 오류 누적'이 에이전트 신뢰성의 정의적 난제다. 그런데 현장에는 간극이 있다. 프로덕션 에이전트를 가진 팀의 약 89%가 어떤 형태로든 관측(observability)을 도입했지만, 제대로 된 평가(evaluation)를 돌리는 곳은 약 52%에 그친다. 대부분의 실패가 바로 이 두 수치의 간극에서 일어난다. 관측은 실행 트레이스·도구 호출 시퀀스·추론 경로·출력 품질 신호를 모아 일반 APM이 놓치는 실패를 드러내고, 평가는 배포 전·후로 그 행동을 측정한다. 프로덕션 레디 에이전트는 구조화 로깅·런타임 거버넌스·드리프트 모니터링·정의된 에스컬레이션 경로를 갖추고, 조용히 망가지는 대신 실패를 우아하게 처리한다.
한국 팀이 에이전트를 출시할 때 '관측만 붙이고 평가는 미루는' 흔한 패턴이 실패의 주원인임을 수치로 보여주며, 두 가지를 함께 세팅해야 함을 알린다.
원문 출처
Towards AI (Agent Observability Guide 2026)