에이전트 자동화의 진짜 난관은 모델이 아니라 평가다
Why Evaluation, Not the Model, Is the Hard Part of Agent Automation
에이전트 자동화를 프로덕션에 올릴 때 발목을 잡는 건 모델 성능보다 평가와 모니터링인 경우가 많다. 멀티스텝 추론에서는 중간 단계 하나가 틀려도 최종 출력 검사는 통과해버려, 워크플로 전체가 오염돼도 기존 출력 기반 테스트가 놓친다. 그래서 권장되는 실무 원칙은 세 가지다. 첫째, 배포 전 적대적(adversarial)으로 테스트한다. 둘째, 실제 프로덕션 실패 사례로부터 eval을 만든다. 셋째, 그 eval이 정말로 중요한 실패를 잡아내는지 측정한다. 페르소나 기반으로 적대적 시나리오를 돌리면 아직 로그에 안 나타났지만 고객군에 존재하는 실패 모드를 미리 잡을 수 있어 가장 값싼 보험이 된다. 운영에서는 출력의 5~10%를 루브릭으로 표본 검수하고, 사람이 에이전트 출력을 뒤집은(override) 케이스를 원인별로 군집화하는 에스컬레이션 분석이 신호가 가장 강한 피드백 채널이다.
랩 벤치마크와 실배포 성능의 격차를 메우는 핵심이 평가 체계라, 한국 팀이 에이전트를 안전하게 운영하려면 모델 선택만큼 eval·모니터링 설계에 투자해야 한다.