Category
에이전트 프레임워크 시장이 기능 경쟁을 넘어 과금·라인업 정리 국면으로 들어섰다. Anthropic은 6월 15일부터 Claude Agent SDK 사용량을 구독 요금과 분리된 별도 월간 'Agent SDK 크레딧'에서 차감하기 시작한다 — 구독으로 무한정 에이전트를 돌리던 패턴에 명시적 비용 경계가 생기는 변화다. OpenAI는 6월 3일 Agent Builder와 Evals 제품의 단계적 종료를 발표했고, 두 제품은 11월 30일부터 플랫폼에서 제공되지 않는다(앞서 4월 Agents SDK에 네이티브 샌드박스 실행과 모델 네이티브 하니스를 추가한 흐름의 후속). 한편 프레임워크 진영은 메이저 버전이 안착했다. LangChain 1.0·LangGraph 1.0(2025년 말 GA)은 각각 표준 툴콜링 에이전트 빌드와 장시간·상태 지속(durable state) 오케스트레이션으로 역할이 갈렸고, Microsoft Agent Framework 1.0은 4월 3일 GA, Google ADK도 Java·Go용 1.0을 출시했다.
Model Context Protocol 차기 명세의 릴리스 후보(RC)가 공개됐고, 최종본은 7월 28일 확정된다. 프로토콜 출범 이래 최대 규모 개정이며 호환성을 깨는 변경(breaking changes)을 포함한다. 핵심은 다섯 가지다. ① 일반 HTTP 인프라에서 확장 가능한 '스테이트리스 코어' — 세션 상태 의존을 걷어내 로드밸런서·서버리스 환경에서 스케일이 쉬워진다. ② Extensions 프레임워크 — 코어를 얇게 유지하고 기능을 확장으로 분리. ③ Tasks 확장 — 장시간 실행 작업을 표준화. ④ MCP Apps — 서버가 렌더링하는 UI를 클라이언트에 노출. ⑤ OAuth·OpenID Connect 배포에 더 부합하는 인가(authorization) 하드닝과 공식 deprecation 정책. RC 공개 후 약 10주의 검증 윈도가 주어지며, Tier 1 SDK는 이 기간 내 지원을 출시할 것으로 예상된다. SDK 메인테이너와 클라이언트 구현자가 실제 워크로드로 변경을 검증하는 단계다.
Claude Agent SDK는 Claude Code를 구동하는 바로 그 기계를 라이브러리로 떼어낸 것으로, 2025년 9월 Claude Code SDK에서 이름이 바뀌었다. Python·TypeScript로 제공되며 CLI 바이너리, 서브에이전트, 세션, MCP 지원, 호스팅 실행 모델을 번들로 갖는다. 핵심 철학은 '에이전트에게 컴퓨터를 줘라' — 사람처럼 셸·파일시스템·웹을 그대로 쓰게 한다. 2026년 실무의 핵심은 실행 위치 선택이다. 도구 루프를 직접 소유하고 싶으면 Messages API, 루프와 샌드박스까지 Anthropic이 호스팅하길 원하면 Managed Agents, 에이전트를 자사 프로세스·파일시스템·서비스 안에서 돌리고 싶으면 Agent SDK를 쓴다. 설치는 pip install claude-agent-sdk 또는 npm install @anthropic-ai/claude-agent-sdk이며 인증은 ANTHROPIC_API_KEY(또는 Bedrock·Vertex·Azure 라우팅)다. 2026년 6월 15일부터는 인터랙티브 Claude 사용량과 분리된 'Agent SDK 크레딧' 풀이 도입돼, 구독 사용자(Pro·Max·Team·Enterprise)는 인터랙티브 쿼터를 소진하지 않고 SDK 워크로드를 돌릴 월 할당량을 받는다.
Model Context Protocol이 AI를 실제 도구·데이터에 연결하는 사실상의 표준으로 자리 잡았다. OpenAI, Google DeepMind, Microsoft를 포함한 주요 벤더와 수천 개 개발팀이 채택했고, Python·TypeScript SDK는 월 약 9,700만 다운로드를 기록한다. 공식 레지스트리에는 2026년 5월 24일 기준 9,652개 서버 레코드와 28,959개 서버/버전 레코드가 인덱싱돼 있고, GitHub에는 mcp-server 토픽 저장소가 15,926개다. 거버넌스 측면에서는 2025년 12월 Anthropic이 MCP를 Linux Foundation 산하 Agentic AI Foundation에 기증해 벤더 중립·커뮤니티 거버넌스 표준이 됐다. Stacklok의 2026 리포트에 따르면 조사 대상 소프트웨어 조직의 41%가 MCP 서버를 제한적 또는 광범위 프로덕션에 올렸고, Pinterest는 월 약 66,000회 호출·844명 활성 사용자로 월 7,000 엔지니어링 시간을 절감한 프로덕션 사례를 공개했다. 2026 로드맵은 엔터프라이즈 인증(OAuth 2.1·IdP 연동), 에이전트 간 도구 호출(A2A), 보안 등급을 갖춘 검증 레지스트리 세 축에 집중한다.
에이전트 코드는 빌드 green인데 런타임에서 터집니다. main 직접 push 막고 PR+Codex 리뷰+사람 confirm으로 거르는 우리 셋업 정리.
sdk 깔고 tool 3개 정의가 끝, 반나절이면 되는데 description 한 줄 잘못 쓰면 모델이 헛짓함.
Model Context Protocol(MCP)의 다음 사양 릴리스 후보가 2026-05-21 잠금됐고, 최종본은 2026-07-28 공개 예정이다. 핵심 변화는 프로토콜 코어가 stateless(무상태)로 바뀐다는 점이다. 기존의 initialize 핸드셰이크와 Mcp-Session-Id 헤더가 사라져서, 어떤 MCP 요청이든 아무 서버 인스턴스로나 도달할 수 있다. 이전에 수평 확장에 필요하던 sticky 라우팅과 공유 세션 저장소가 더는 필요 없어진다. 이와 함께 Extensions 프레임워크(역DNS 식별자·독립 버전), Tasks의 확장 전환(tasks/get·update·cancel), 샌드박스 iframe에 렌더되는 MCP Apps(대화형 HTML UI), 그리고 OAuth 2.0·OpenID Connect 정렬을 강화하는 인가 하드닝(6개 SEP)이 들어간다. RC 기간을 10주로 잡아 각 SDK가 검증할 시간을 줬다.
LLM은 기본적으로 stateless다 — 매 호출이 백지에서 시작하므로, 세션을 넘어 맥락을 잇지 못하면 에이전트는 같은 실수를 반복한다. 2026년 실무에서 프로토타입과 프로덕션을 가르는 건 모델이 아니라 '기억하느냐'다. 핵심은 컨텍스트 엔지니어링 — 프롬프트뿐 아니라 메모리·도구·검색·상태까지 정보 환경 전체를 설계하는 것이다. 메모리는 단일 세션 안에서만 존재하는 in-context 메모리와, 트리거·날짜·주를 넘겨 살아남는 외부 메모리(DB·CRM·데이터 스토어)로 나뉜다. 좋은 메모리 페이로드는 작고, 타입이 명확하며, 비즈니스 키에 묶인다 — 고객 ID·활성 케이스 ID·현재 상태·마지막 의미 있는 이벤트·다음 결정에 필요한 최소 맥락만 저장한다. 검색·아카이브용 벡터 저장소는 pgvector로 시작해 지연이 문제될 때 Qdrant·Pinecone 등으로 갈아타는 식이 현실적이다.
19시 정각에 cron 박으면 date:less 경계에서 그날 슬롯을 놓침. 18:59에 박아야 걸리더라
Anthropic이 Claude Managed Agents에 멀티 에이전트 오케스트레이션을 추가했다. 리드 에이전트가 작업을 쪼개 각 조각을 전담 서브에이전트에게 위임하고, 서브에이전트들은 각자 모델·프롬프트·도구를 갖고 공유 파일시스템 위에서 병렬로 일한다. 리드는 작업 중간에 진척을 점검할 수 있고, 전 과정이 Claude Console에서 감사 가능하다 — 어떤 서브에이전트가 무엇을 어떤 순서로 했는지, 작업 결정의 근거까지 들여다본다. 한편 2026-06-15부터 구독 플랜에서 Claude Agent SDK 사용량이 대화형 한도와 분리된 별도 월간 'Agent SDK 크레딧'에서 빠진다(Pro $20·Max 5x $100·Max 20x $200). Agent SDK는 Claude Code를 떠받치는 동일 하니스 위에 서브에이전트·세션·MCP 지원을 묶은 라이브러리로, Python·TypeScript로 제공된다.
에이전트 수 늘려서 풀린 문제는 솔직히 하나도 없었고, 남은 건 역할 분리랑 검수 루프 둘뿐이었습니다.
2026년 에이전틱 코딩 도구 비교를 보면, 단일 '최강'은 없고 벤치마크마다 승자가 갈린다. 터미널 작업 중심의 Terminal-Bench 계열에서는 Codex CLI가 선두로, Claude Code와 Gemini CLI가 뒤를 잇는 양상이 보고된다. 반면 실제 저장소 이슈를 푸는 SWE-bench Pro 계열에서는 Claude Code(Opus 4.x)가 앞서는 결과가 나온다. 도구 철학도 다르다 — Claude Code는 터미널·파일시스템·git 히스토리에 직접 붙는 에이전트 중심이고 대용량 컨텍스트로 교차 파일 의존성을 읽는 데 강하다. Cursor는 IDE 우선에 빠른 탭 자동완성·멀티모델 라우팅, 2026년 초 CLI와 클라우드 핸드오프를 추가했다. 결론은 '벤치마크 점수 하나로 고르지 말고, 작업 형태(터미널 자동화 vs 저장소 PR vs 인터랙티브 IDE)에 맞춰 고르라'는 것이다.
2026년 컴퓨터·브라우저 에이전트가 실제 워크로드에 쓸 만해졌고, 세 진영이 서로 다른 아키텍처를 택했다. Anthropic의 Claude는 화면 스크린샷을 받아 마우스·키보드 입력을 돌려주는 범용 computer use 도구를 노출하되, 실제 실행 환경은 고객 책임이다 — 즉 화면을 시각적으로 분석해 클릭·입력을 수행하는 픽셀 기반에 가깝다. OpenAI는 Codex Background Computer Use로 엔지니어의 메인 작업 환경과 병렬로 별도 데스크톱 세션에서 에이전트를 돌린다. Google의 Gemini Computer Use는 Project Mariner 계보로, 원시 픽셀 파싱보다 DOM 인식을 우선한다. 오픈소스 쪽에서는 Browser Use가 Playwright를 감싸 Claude·GPT·Gemini·로컬 모델을 백엔드로 붙이는 가장 인기 있는 프레임워크다. 다만 안티봇 탐지·동적 레이아웃·인증 플로우는 여전히 난제로 남아 있다.
프로덕션 에이전트는 확률적으로 동작하고, 도구를 동적으로 고르며, 비결정적 출력을 다단계로 연쇄한다. 이때 단계당 1% 오류율이 누적되면 전체 실패 확률이 약 63%까지 치솟는다 — 이 '순차 오류 누적'이 에이전트 신뢰성의 정의적 난제다. 그런데 현장에는 간극이 있다. 프로덕션 에이전트를 가진 팀의 약 89%가 어떤 형태로든 관측(observability)을 도입했지만, 제대로 된 평가(evaluation)를 돌리는 곳은 약 52%에 그친다. 대부분의 실패가 바로 이 두 수치의 간극에서 일어난다. 관측은 실행 트레이스·도구 호출 시퀀스·추론 경로·출력 품질 신호를 모아 일반 APM이 놓치는 실패를 드러내고, 평가는 배포 전·후로 그 행동을 측정한다. 프로덕션 레디 에이전트는 구조화 로깅·런타임 거버넌스·드리프트 모니터링·정의된 에스컬레이션 경로를 갖추고, 조용히 망가지는 대신 실패를 우아하게 처리한다.