CEO-Bench: 에이전트의 장기적 과제 평가
CEO-Bench: Can Agents Play the Long Game?
CEO-Bench는 언어 모델 에이전트의 장기적 과제를 평가하기 위해 500일 동안 스타트업 운영을 시뮬레이션한다. 에이전트는 가격 책정, 마케팅, 예산 관리 등 다양한 측면을 관리하며, 인간 CEO와 동일한 환경에서 도전 과제를 직면한다. 성공적인 운영을 위해서는 노이즈가 있는 비즈니스 데이터베이스를 분석하고, 전략을 수립하며, 여러 결정을 조율해야 한다. Claude Opus 4.8과 GPT-5.5만이 초기 자본 100만 달러를 초과했지만, 지속적인 이익을 내지 못했다. CEO-Bench는 지속적이고 적응적인 진전을 이끌기 위한 지능을 측정하는 첫걸음이다.
CEO-Bench는 한국 개발자들이 에이전트의 복잡한 비즈니스 환경에서의 성능을 평가하고 개선할 수 있는 기준을 제공한다.
원문 출처
arXiv cs.AI