Cognition, merge 가능성 평가 벤치마크 FrontierCode 공개에 Opus 4.8도 13.4%
Introducing FrontierCode: a coding eval that asks whether you'd actually merge the output
Cognition(Devin 개발사)이 6월 8일 정답 여부를 넘어 '실제로 머지할 코드인가'를 묻는 코딩 벤치마크 FrontierCode를 공개했다. 36개 주력 오픈소스 레포에서 추출한 150개 태스크로 구성되며, 20명 이상의 일급 메인테이너가 태스크당 40시간 넘게 투입해 설계했다. 난이도는 Extended(150)·Main(100)·Diamond(최난 50)로 중첩 구성된다. 채점은 기능 정확성에 더해 회귀 안전성, 스코프 침범(scope creep) 여부, 테스트 품질, 코드베이스 규약 준수까지 평가한다. 고전적 단위 테스트, 에이전트가 작성한 테스트가 망가진 코드에서 실제로 실패하는지 검증하는 역방향 테스트, 파일·diff 경계 검증, LLM 기반 코드 품질 리뷰를 결합한다. 'blocker' 기준을 모두 통과해야 0점을 면한다. 최고 성적은 Claude Opus 4.8로 Diamond 13.4%·Main 34.3%·Extended 51.8%, GPT-5.5는 Diamond 6.3%, Gemini 3.1 Pro는 4.7%에 그쳤다. SWE-Bench Pro 대비 오탐률(false positive)이 81% 낮다.
SWE-bench류 포화 속에서 '테스트만 통과하면 통과'라는 벤치마크의 맹점을 정면으로 겨냥했다 — METR도 고득점 패치가 메인테이너에게 거절되는 현상을 지적해왔다. Diamond 13.4%라는 낮은 천장은 에이전트 코드의 프로덕션 머지 적합성이 마케팅 수치보다 훨씬 뒤처져 있음을 보여준다. 한국 개발팀에는 코딩 에이전트 도입 시 정답률이 아니라 회귀·스코프·리뷰 통과율로 평가 기준을 재설정하라는 실무 지침이다.
원문 출처
Cognition