News원문 2026년 6월 18일

CEO-Bench: 에이전트의 장기적 과제 평가

CEO-Bench: Can Agents Play the Long Game?

CEO-Bench는 언어 모델 에이전트의 장기적 과제를 평가하기 위해 500일 동안 스타트업 운영을 시뮬레이션한다. 에이전트는 가격 책정, 마케팅, 예산 관리 등 다양한 측면을 관리하며, 인간 CEO와 동일한 환경에서 도전 과제를 직면한다. 성공적인 운영을 위해서는 노이즈가 있는 비즈니스 데이터베이스를 분석하고, 전략을 수립하며, 여러 결정을 조율해야 한다. Claude Opus 4.8과 GPT-5.5만이 초기 자본 100만 달러를 초과했지만, 지속적인 이익을 내지 못했다. CEO-Bench는 지속적이고 적응적인 진전을 이끌기 위한 지능을 측정하는 첫걸음이다.

CEO-Bench는 한국 개발자들이 에이전트의 복잡한 비즈니스 환경에서의 성능을 평가하고 개선할 수 있는 기준을 제공한다.

원문 출처

arXiv cs.AI

원문 보기 ↗

← Today

AI 에이전트 더 보기

AI 에이전트 관련 브리핑

NewsAI 에이전트실전·5일 전

Claude Agent SDK 별도 크레딧 분리, OpenAI Agent Builder는 종료 예고

에이전트 프레임워크 시장이 기능 경쟁을 넘어 과금·라인업 정리 국면으로 들어섰다. Anthropic은 6월 15일부터 Claude Agent SDK 사용량을 구독 요금과 분리된 별도 월간 'Agent SDK 크레딧'에서 차감하기 시작한다 — 구독으로 무한정 에이전트를 돌리던 패턴에 명시적 비용 경계가 생기는 변화다. OpenAI는 6월 3일 Agent Builder와 Evals 제품의 단계적 종료를 발표했고, 두 제품은 11월 30일부터 플랫폼에서 제공되지 않는다(앞서 4월 Agents SDK에 네이티브 샌드박스 실행과 모델 네이티브 하니스를 추가한 흐름의 후속). 한편 프레임워크 진영은 메이저 버전이 안착했다. LangChain 1.0·LangGraph 1.0(2025년 말 GA)은 각각 표준 툴콜링 에이전트 빌드와 장시간·상태 지속(durable state) 오케스트레이션으로 역할이 갈렸고, Microsoft Agent Framework 1.0은 4월 3일 GA, Google ADK도 Java·Go용 1.0을 출시했다.

별도 크레딧 분리는 '구독만 있으면 에이전트는 공짜'라는 착시를 끝내고, 에이전트 실행을 명시적 원가 항목으로 끌어올린다. 자율 루프·스케줄 에이전트를 상시 가동하는 한국 팀은 이제 토큰 단가뿐 아니라 SDK 크레딧 소진 속도를 별도 모니터링해야 한다. OpenAI의 Agent Builder 종료는 'GUI 노코드 에이전트 빌더'보다 코드 기반 SDK로 무게가 쏠렸음을 보여주는 신호로, 노코드 빌더에 락인되지 않는 설계가 안전하다.

OpenAI / TechCrunch원문 ↗

NewsAI 에이전트고급·1주 전

MCP 차기 명세 릴리스 후보 공개, 스테이트리스 코어·Tasks·MCP Apps로 최대 개편

Model Context Protocol 차기 명세의 릴리스 후보(RC)가 공개됐고, 최종본은 7월 28일 확정된다. 프로토콜 출범 이래 최대 규모 개정이며 호환성을 깨는 변경(breaking changes)을 포함한다. 핵심은 다섯 가지다. ① 일반 HTTP 인프라에서 확장 가능한 '스테이트리스 코어' — 세션 상태 의존을 걷어내 로드밸런서·서버리스 환경에서 스케일이 쉬워진다. ② Extensions 프레임워크 — 코어를 얇게 유지하고 기능을 확장으로 분리. ③ Tasks 확장 — 장시간 실행 작업을 표준화. ④ MCP Apps — 서버가 렌더링하는 UI를 클라이언트에 노출. ⑤ OAuth·OpenID Connect 배포에 더 부합하는 인가(authorization) 하드닝과 공식 deprecation 정책. RC 공개 후 약 10주의 검증 윈도가 주어지며, Tier 1 SDK는 이 기간 내 지원을 출시할 것으로 예상된다. SDK 메인테이너와 클라이언트 구현자가 실제 워크로드로 변경을 검증하는 단계다.

스테이트리스 코어로의 전환은 MCP가 '로컬 데스크톱 어시스턴트 연결 규약'에서 '프로덕션 분산 인프라용 표준'으로 성숙한다는 신호다. 다만 breaking changes가 명시된 만큼, MCP 서버를 운영 환경에 배포한 팀은 인가 흐름(OAuth 정합)과 세션 가정을 7월 28일 전에 재점검해야 한다. Tasks·MCP Apps는 그간 각자 커스텀으로 구현하던 장시간 작업·서버 UI를 표준화하므로, 자체 비표준 확장을 걷어낼 좋은 기회다.

Model Context Protocol Blog원문 ↗

NewsAI 에이전트중급·2025년 2월 3일

컴퓨터·브라우저 에이전트 2026: 픽셀 vs DOM, 세 진영의 설계 차이

2026년 컴퓨터·브라우저 에이전트가 실제 워크로드에 쓸 만해졌고, 세 진영이 서로 다른 아키텍처를 택했다. Anthropic의 Claude는 화면 스크린샷을 받아 마우스·키보드 입력을 돌려주는 범용 computer use 도구를 노출하되, 실제 실행 환경은 고객 책임이다 — 즉 화면을 시각적으로 분석해 클릭·입력을 수행하는 픽셀 기반에 가깝다. OpenAI는 Codex Background Computer Use로 엔지니어의 메인 작업 환경과 병렬로 별도 데스크톱 세션에서 에이전트를 돌린다. Google의 Gemini Computer Use는 Project Mariner 계보로, 원시 픽셀 파싱보다 DOM 인식을 우선한다. 오픈소스 쪽에서는 Browser Use가 Playwright를 감싸 Claude·GPT·Gemini·로컬 모델을 백엔드로 붙이는 가장 인기 있는 프레임워크다. 다만 안티봇 탐지·동적 레이아웃·인증 플로우는 여전히 난제로 남아 있다.

웹 자동화·RPA를 대체할 에이전트를 고를 때 '픽셀 기반 vs DOM 기반'이라는 설계 축이 안정성·유지보수성을 가르므로, 용도에 맞는 선택 기준을 준다.

digitalapplied원문 ↗

NewsAI 에이전트초급·2025년 12월 15일

[상록] AI 에이전트 메모리 입문: 프로토타입과 프로덕션을 가르는 한 가지

LLM은 기본적으로 stateless다 — 매 호출이 백지에서 시작하므로, 세션을 넘어 맥락을 잇지 못하면 에이전트는 같은 실수를 반복한다. 2026년 실무에서 프로토타입과 프로덕션을 가르는 건 모델이 아니라 '기억하느냐'다. 핵심은 컨텍스트 엔지니어링 — 프롬프트뿐 아니라 메모리·도구·검색·상태까지 정보 환경 전체를 설계하는 것이다. 메모리는 단일 세션 안에서만 존재하는 in-context 메모리와, 트리거·날짜·주를 넘겨 살아남는 외부 메모리(DB·CRM·데이터 스토어)로 나뉜다. 좋은 메모리 페이로드는 작고, 타입이 명확하며, 비즈니스 키에 묶인다 — 고객 ID·활성 케이스 ID·현재 상태·마지막 의미 있는 이벤트·다음 결정에 필요한 최소 맥락만 저장한다. 검색·아카이브용 벡터 저장소는 pgvector로 시작해 지연이 문제될 때 Qdrant·Pinecone 등으로 갈아타는 식이 현실적이다.

메모리 설계는 에이전트 신뢰성의 토대이며, 작고 타입 명확한 외부 상태 저장이 한국 팀의 흔한 '세션마다 맥락 유실' 문제를 직접 해결한다.

The New Stack원문 ↗

CEO-Bench: 에이전트의 장기적 과제 평가

Claude Agent SDK 별도 크레딧 분리, OpenAI Agent Builder는 종료 예고

MCP 차기 명세 릴리스 후보 공개, 스테이트리스 코어·Tasks·MCP Apps로 최대 개편

컴퓨터·브라우저 에이전트 2026: 픽셀 vs DOM, 세 진영의 설계 차이

[상록] AI 에이전트 메모리 입문: 프로토타입과 프로덕션을 가르는 한 가지

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글