News고급

에이전트 자동화의 진짜 난관은 모델이 아니라 평가다

Why Evaluation, Not the Model, Is the Hard Part of Agent Automation

에이전트 자동화를 프로덕션에 올릴 때 발목을 잡는 건 모델 성능보다 평가와 모니터링인 경우가 많다. 멀티스텝 추론에서는 중간 단계 하나가 틀려도 최종 출력 검사는 통과해버려, 워크플로 전체가 오염돼도 기존 출력 기반 테스트가 놓친다. 그래서 권장되는 실무 원칙은 세 가지다. 첫째, 배포 전 적대적(adversarial)으로 테스트한다. 둘째, 실제 프로덕션 실패 사례로부터 eval을 만든다. 셋째, 그 eval이 정말로 중요한 실패를 잡아내는지 측정한다. 페르소나 기반으로 적대적 시나리오를 돌리면 아직 로그에 안 나타났지만 고객군에 존재하는 실패 모드를 미리 잡을 수 있어 가장 값싼 보험이 된다. 운영에서는 출력의 5~10%를 루브릭으로 표본 검수하고, 사람이 에이전트 출력을 뒤집은(override) 케이스를 원인별로 군집화하는 에스컬레이션 분석이 신호가 가장 강한 피드백 채널이다.

랩 벤치마크와 실배포 성능의 격차를 메우는 핵심이 평가 체계라, 한국 팀이 에이전트를 안전하게 운영하려면 모델 선택만큼 eval·모니터링 설계에 투자해야 한다.

← Today

업무 자동화 더 보기

업무 자동화 관련 브리핑

News업무 자동화실전·2026년 4월 21일

2026 상반기, 에이전틱 AI 엔터프라이즈 도입 변곡점과 ROI 실측

2026년 상반기 기업의 AI 에이전트 도입이 '데모'에서 '프로덕션'으로 넘어가는 변곡점을 지났다. 수치가 이를 뒷받침한다. Q1 2026에 출시·업데이트된 엔터프라이즈 앱의 80%가 최소 하나의 AI 에이전트를 내장했고(2024년 33% → 급등), 실제 프로덕션에 에이전트를 1개 이상 가동 중인 기업은 31%다. 산업별 편차가 크다 — 금융·보험이 47%로 선두, 헬스케어·정부는 각각 18%·14%로 후행. ROI는 글로벌 중앙값 171%, 미국 기업은 192%이며, 도메인 특화 에이전트는 수평형 대비 평균 5배 높은 효율을 보였다. 회수기간은 SDR(영업개발) 에이전트가 3.4개월로 가장 빠르고 재무·운영은 8.9개월. 사례로는 Klarna 에이전트가 853명분 업무를 처리하며 6,000만 달러를 절감했고, JPMorgan은 매일 450개 이상 AI 유스케이스를 프로덕션에서 돌린다. Merck는 4월 Google Cloud와 최대 10억 달러 규모의 제약 분야 최대 에이전틱 딜을 체결했다.

핵심 교훈은 '수평형 범용 에이전트보다 도메인 특화가 5배 낫다'는 점이다. 한국 빌더에게 이는 산업·업무를 좁게 파고든 버티컬 에이전트가 승부처임을 뜻하며, SDR·고객지원처럼 회수기간 3~5개월의 명확한 ROI 영역부터 공략하는 게 현실적이다. 다만 31%만 프로덕션에 도달했다는 건 '데모는 쉽고 운영은 어렵다'는 신호 — 멱등성·에러 표면 단일화·HITL 게이트 같은 운영 하드닝이 도입 성패를 가른다.

FifthRow원문 ↗

News업무 자동화중급·2026년 3월 25일

MCP 2025-11-25 스펙: 비동기 Tasks와 URL 모드 일릴리시테이션

Model Context Protocol의 2025-11-25 리비전은 자동화 워크플로 설계 방식을 바꾼다. 핵심은 Tasks 프리미티브로, 어떤 요청이든 즉시 task 핸들을 돌려받고 나중에 상태를 폴링해 결과를 가져오는 call-now/fetch-later 패턴을 지원한다. task는 working, input_required, completed, failed, cancelled 상태를 거치므로 장시간 멀티스텝 작업을 조율하기 쉬워진다. 또 하나는 일릴리시테이션 강화다. 서버가 작업 중간에 멈춰 사용자 입력을 요청할 수 있고, URL 모드(SEP-1036)는 OAuth·결제·API 키 같은 민감 플로를 클라이언트 안이 아니라 브라우저에서 완료하도록 URL을 건넨다. 다만 Tasks는 실험적 코어 기능으로 출시됐고, 실제 운영에서 재설계 필요성이 드러나 이후 2026-07-28 릴리스 후보에서는 스펙 본체가 아닌 Extension으로 옮겨졌다는 점은 알아둘 필요가 있다.

장시간 실행되는 에이전트 자동화에서 동기 요청·타임아웃 한계를 푸는 표준 패턴이라, MCP 서버를 만드는 한국 개발자가 비동기와 인증 플로를 처음부터 올바르게 설계하게 해준다.

WorkOS원문 ↗

News업무 자동화고급·2025년 10월 9일

장시간 에이전트의 핵심: 내구 실행과 체크포인트

에이전트를 단순 for 루프로 돌리면 중간에 프로세스가 죽거나 API가 끊겼을 때 처음부터 다시 시작해야 한다. 장시간·상태 유지 에이전트를 안정적으로 운영하려면 내구 실행(durable execution) 개념이 필요하다. 핵심은 체크포인트다. 각 단계의 상태를 저장해 두면 장애가 나도 정확히 멈춘 지점부터 자동으로 이어서 재개할 수 있다. 여기에 사람 승인을 끼우는 human-in-the-loop, 영속 메모리, 스트리밍, 실패 시 자동 재시도와 복구가 더해지면 프로덕션급 에이전트의 기본기가 갖춰진다. 이런 패턴을 일급 기능으로 제공하는 대표 프레임워크가 LangGraph로, 그래프 기반 오케스트레이션에서 각 노드가 에이전트 단계를 맡고 엣지가 흐름을 정의한다. 타임트래블 디버깅과 상태 편집을 지원하는 스튜디오, 크론 스케줄링·체크포인트·재시도를 다루는 API도 제공한다. 더 강한 실행 보증이 필요하면 Temporal 같은 워크플로 엔진과 결합하는 선택지도 있다.

단발 호출을 넘어 며칠씩 도는 자동화로 가려면 내구 실행은 선택이 아닌 필수라, 한국 개발자가 신뢰할 수 있는 장시간 에이전트를 설계하는 토대를 잡아준다.

LangChain원문 ↗

News업무 자동화중급·2024년 10월 22일

컴퓨터 유즈 에이전트 2026: Claude·Operator·Gemini 세 갈래

화면을 보고 마우스·키보드를 직접 조작해 사람처럼 GUI를 다루는 컴퓨터 유즈 에이전트가 2026년에는 실험을 넘어 하나의 제품 카테고리가 됐다. 출발점은 Anthropic이 2024년 10월 22일 public beta로 공개한 Claude의 Computer Use로, 스크린샷을 시각적으로 분석해 좌표 기반 클릭과 키 입력으로 멀티스텝 작업을 수행한다. OS에 의존하지 않는 portable한 스크린샷+마우스+키보드 툴이라 VM·컨테이너·원격 데스크톱에서 두루 동작한다. 접근법은 셋으로 갈린다. Claude는 OS 비의존 시각 제어, OpenAI Operator 계열은 별도 데스크톱 세션에서 백그라운드로 에이전트를 돌리는 방향, Google Gemini의 Computer Use는 Project Mariner에서 자라 DOM 인식과 웹 네이티브 액션으로 브라우저 워크플로에 최적화한다. 공통점은 화면을 보고 맥락을 이해하며 인터페이스가 바뀌어도 적응한다는 점이다.

API가 없는 레거시·내부 웹 시스템까지 자동화 대상으로 끌어들이는 길이라, 통합 비용이 큰 한국 기업 환경에서 자동화 범위를 크게 넓힌다.

Anthropic원문 ↗

에이전트 자동화의 진짜 난관은 모델이 아니라 평가다

2026 상반기, 에이전틱 AI 엔터프라이즈 도입 변곡점과 ROI 실측

MCP 2025-11-25 스펙: 비동기 Tasks와 URL 모드 일릴리시테이션

장시간 에이전트의 핵심: 내구 실행과 체크포인트

컴퓨터 유즈 에이전트 2026: Claude·Operator·Gemini 세 갈래

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글