SWE-bench Verified 리더보드 정리: 프런티어 모델과 오픈웨이트의 격차가 한 자릿수로
SWE-bench Verified Leaderboard 2026: frontier vs open-weight gap narrows
2026년 SWE-bench Verified 리더보드에서 Anthropic Claude Fable 5(6월 9일 공개)가 95.0%로 선두를 차지했고, Claude Opus 4.8은 88.6%를 기록했다. 주목할 변화는 오픈웨이트 진영의 추격으로, DeepSeek-V4-Pro-Max 80.6%, MiniMax M3 80.5%, Qwen3.7 Max 80.4%가 0.2%p 안에 몰리며 상용 모델과의 격차가 한 자릿수로 좁혀졌다. 또 하나 알아둘 점은 벤치마크 자체의 이동이다. SWE-bench Verified가 포화에 가까워지면서 OpenAI는 Verified 점수 보고를 중단하고 더 어렵고 현실적인 SWE-bench Pro를 권장하기 시작했다. 따라서 한국 개발자는 단일 점수만 보지 말고, 어떤 벤치마크에서 측정됐는지와 실제 작업(태스크당 비용·다국어 코드)을 함께 봐야 한다.
모델 선택은 점수 한 줄이 아니라 벤치마크 종류·비용·오픈웨이트 가용성을 함께 봐야 하는 시점이 됐다.
원문 출처
llm-stats / morphllm