News실전원문 2026년 3월 1일

[상록] 1% 오류가 63% 실패로: 에이전트는 왜 관측·평가가 동시에 필요한가

Agent Observability & Evaluation: Why Both Matter

프로덕션 에이전트는 확률적으로 동작하고, 도구를 동적으로 고르며, 비결정적 출력을 다단계로 연쇄한다. 이때 단계당 1% 오류율이 누적되면 전체 실패 확률이 약 63%까지 치솟는다 — 이 '순차 오류 누적'이 에이전트 신뢰성의 정의적 난제다. 그런데 현장에는 간극이 있다. 프로덕션 에이전트를 가진 팀의 약 89%가 어떤 형태로든 관측(observability)을 도입했지만, 제대로 된 평가(evaluation)를 돌리는 곳은 약 52%에 그친다. 대부분의 실패가 바로 이 두 수치의 간극에서 일어난다. 관측은 실행 트레이스·도구 호출 시퀀스·추론 경로·출력 품질 신호를 모아 일반 APM이 놓치는 실패를 드러내고, 평가는 배포 전·후로 그 행동을 측정한다. 프로덕션 레디 에이전트는 구조화 로깅·런타임 거버넌스·드리프트 모니터링·정의된 에스컬레이션 경로를 갖추고, 조용히 망가지는 대신 실패를 우아하게 처리한다.

한국 팀이 에이전트를 출시할 때 '관측만 붙이고 평가는 미루는' 흔한 패턴이 실패의 주원인임을 수치로 보여주며, 두 가지를 함께 세팅해야 함을 알린다.

원문 출처

Towards AI (Agent Observability Guide 2026)

원문 보기 ↗

← Today

AI 에이전트 더 보기

AI 에이전트 관련 브리핑

NewsAI 에이전트실전·4일 전

Claude Agent SDK 별도 크레딧 분리, OpenAI Agent Builder는 종료 예고

에이전트 프레임워크 시장이 기능 경쟁을 넘어 과금·라인업 정리 국면으로 들어섰다. Anthropic은 6월 15일부터 Claude Agent SDK 사용량을 구독 요금과 분리된 별도 월간 'Agent SDK 크레딧'에서 차감하기 시작한다 — 구독으로 무한정 에이전트를 돌리던 패턴에 명시적 비용 경계가 생기는 변화다. OpenAI는 6월 3일 Agent Builder와 Evals 제품의 단계적 종료를 발표했고, 두 제품은 11월 30일부터 플랫폼에서 제공되지 않는다(앞서 4월 Agents SDK에 네이티브 샌드박스 실행과 모델 네이티브 하니스를 추가한 흐름의 후속). 한편 프레임워크 진영은 메이저 버전이 안착했다. LangChain 1.0·LangGraph 1.0(2025년 말 GA)은 각각 표준 툴콜링 에이전트 빌드와 장시간·상태 지속(durable state) 오케스트레이션으로 역할이 갈렸고, Microsoft Agent Framework 1.0은 4월 3일 GA, Google ADK도 Java·Go용 1.0을 출시했다.

별도 크레딧 분리는 '구독만 있으면 에이전트는 공짜'라는 착시를 끝내고, 에이전트 실행을 명시적 원가 항목으로 끌어올린다. 자율 루프·스케줄 에이전트를 상시 가동하는 한국 팀은 이제 토큰 단가뿐 아니라 SDK 크레딧 소진 속도를 별도 모니터링해야 한다. OpenAI의 Agent Builder 종료는 'GUI 노코드 에이전트 빌더'보다 코드 기반 SDK로 무게가 쏠렸음을 보여주는 신호로, 노코드 빌더에 락인되지 않는 설계가 안전하다.

OpenAI / TechCrunch원문 ↗

NewsAI 에이전트고급·1주 전

MCP 차기 명세 릴리스 후보 공개, 스테이트리스 코어·Tasks·MCP Apps로 최대 개편

Model Context Protocol 차기 명세의 릴리스 후보(RC)가 공개됐고, 최종본은 7월 28일 확정된다. 프로토콜 출범 이래 최대 규모 개정이며 호환성을 깨는 변경(breaking changes)을 포함한다. 핵심은 다섯 가지다. ① 일반 HTTP 인프라에서 확장 가능한 '스테이트리스 코어' — 세션 상태 의존을 걷어내 로드밸런서·서버리스 환경에서 스케일이 쉬워진다. ② Extensions 프레임워크 — 코어를 얇게 유지하고 기능을 확장으로 분리. ③ Tasks 확장 — 장시간 실행 작업을 표준화. ④ MCP Apps — 서버가 렌더링하는 UI를 클라이언트에 노출. ⑤ OAuth·OpenID Connect 배포에 더 부합하는 인가(authorization) 하드닝과 공식 deprecation 정책. RC 공개 후 약 10주의 검증 윈도가 주어지며, Tier 1 SDK는 이 기간 내 지원을 출시할 것으로 예상된다. SDK 메인테이너와 클라이언트 구현자가 실제 워크로드로 변경을 검증하는 단계다.

스테이트리스 코어로의 전환은 MCP가 '로컬 데스크톱 어시스턴트 연결 규약'에서 '프로덕션 분산 인프라용 표준'으로 성숙한다는 신호다. 다만 breaking changes가 명시된 만큼, MCP 서버를 운영 환경에 배포한 팀은 인가 흐름(OAuth 정합)과 세션 가정을 7월 28일 전에 재점검해야 한다. Tasks·MCP Apps는 그간 각자 커스텀으로 구현하던 장시간 작업·서버 UI를 표준화하므로, 자체 비표준 확장을 걷어낼 좋은 기회다.

Model Context Protocol Blog원문 ↗

NewsAI 에이전트중급·2025년 2월 3일

컴퓨터·브라우저 에이전트 2026: 픽셀 vs DOM, 세 진영의 설계 차이

2026년 컴퓨터·브라우저 에이전트가 실제 워크로드에 쓸 만해졌고, 세 진영이 서로 다른 아키텍처를 택했다. Anthropic의 Claude는 화면 스크린샷을 받아 마우스·키보드 입력을 돌려주는 범용 computer use 도구를 노출하되, 실제 실행 환경은 고객 책임이다 — 즉 화면을 시각적으로 분석해 클릭·입력을 수행하는 픽셀 기반에 가깝다. OpenAI는 Codex Background Computer Use로 엔지니어의 메인 작업 환경과 병렬로 별도 데스크톱 세션에서 에이전트를 돌린다. Google의 Gemini Computer Use는 Project Mariner 계보로, 원시 픽셀 파싱보다 DOM 인식을 우선한다. 오픈소스 쪽에서는 Browser Use가 Playwright를 감싸 Claude·GPT·Gemini·로컬 모델을 백엔드로 붙이는 가장 인기 있는 프레임워크다. 다만 안티봇 탐지·동적 레이아웃·인증 플로우는 여전히 난제로 남아 있다.

웹 자동화·RPA를 대체할 에이전트를 고를 때 '픽셀 기반 vs DOM 기반'이라는 설계 축이 안정성·유지보수성을 가르므로, 용도에 맞는 선택 기준을 준다.

digitalapplied원문 ↗

NewsAI 에이전트초급·2025년 12월 15일

[상록] AI 에이전트 메모리 입문: 프로토타입과 프로덕션을 가르는 한 가지

LLM은 기본적으로 stateless다 — 매 호출이 백지에서 시작하므로, 세션을 넘어 맥락을 잇지 못하면 에이전트는 같은 실수를 반복한다. 2026년 실무에서 프로토타입과 프로덕션을 가르는 건 모델이 아니라 '기억하느냐'다. 핵심은 컨텍스트 엔지니어링 — 프롬프트뿐 아니라 메모리·도구·검색·상태까지 정보 환경 전체를 설계하는 것이다. 메모리는 단일 세션 안에서만 존재하는 in-context 메모리와, 트리거·날짜·주를 넘겨 살아남는 외부 메모리(DB·CRM·데이터 스토어)로 나뉜다. 좋은 메모리 페이로드는 작고, 타입이 명확하며, 비즈니스 키에 묶인다 — 고객 ID·활성 케이스 ID·현재 상태·마지막 의미 있는 이벤트·다음 결정에 필요한 최소 맥락만 저장한다. 검색·아카이브용 벡터 저장소는 pgvector로 시작해 지연이 문제될 때 Qdrant·Pinecone 등으로 갈아타는 식이 현실적이다.

메모리 설계는 에이전트 신뢰성의 토대이며, 작고 타입 명확한 외부 상태 저장이 한국 팀의 흔한 '세션마다 맥락 유실' 문제를 직접 해결한다.

The New Stack원문 ↗

[상록] 1% 오류가 63% 실패로: 에이전트는 왜 관측·평가가 동시에 필요한가

Claude Agent SDK 별도 크레딧 분리, OpenAI Agent Builder는 종료 예고

MCP 차기 명세 릴리스 후보 공개, 스테이트리스 코어·Tasks·MCP Apps로 최대 개편

컴퓨터·브라우저 에이전트 2026: 픽셀 vs DOM, 세 진영의 설계 차이

[상록] AI 에이전트 메모리 입문: 프로토타입과 프로덕션을 가르는 한 가지

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글