News중급원문 2026년 6월 14일

SWE-bench Verified 리더보드 정리: 프런티어 모델과 오픈웨이트의 격차가 한 자릿수로

SWE-bench Verified Leaderboard 2026: frontier vs open-weight gap narrows

2026년 SWE-bench Verified 리더보드에서 Anthropic Claude Fable 5(6월 9일 공개)가 95.0%로 선두를 차지했고, Claude Opus 4.8은 88.6%를 기록했다. 주목할 변화는 오픈웨이트 진영의 추격으로, DeepSeek-V4-Pro-Max 80.6%, MiniMax M3 80.5%, Qwen3.7 Max 80.4%가 0.2%p 안에 몰리며 상용 모델과의 격차가 한 자릿수로 좁혀졌다. 또 하나 알아둘 점은 벤치마크 자체의 이동이다. SWE-bench Verified가 포화에 가까워지면서 OpenAI는 Verified 점수 보고를 중단하고 더 어렵고 현실적인 SWE-bench Pro를 권장하기 시작했다. 따라서 한국 개발자는 단일 점수만 보지 말고, 어떤 벤치마크에서 측정됐는지와 실제 작업(태스크당 비용·다국어 코드)을 함께 봐야 한다.

모델 선택은 점수 한 줄이 아니라 벤치마크 종류·비용·오픈웨이트 가용성을 함께 봐야 하는 시점이 됐다.

원문 출처

llm-stats / morphllm

원문 보기 ↗

← Today

AI 코딩 더 보기

AI 코딩 관련 브리핑

NewsAI 코딩중급·1주 전

Cursor Bugbot, /review 프리커밋 게이트로 리뷰 시간 5분에서 90초로 단축

Cursor가 6월 10일 Bugbot 업데이트를 출시해 평균 코드리뷰 시간을 약 5분에서 90초로 줄였다(전체 실행의 90%가 3분 내 완료). 동시에 실행당 버그 검출은 0.56→0.62건으로 약 10% 늘고, 실행당 비용은 약 22% 낮아졌다(PR 크기에 따라 $1.00~1.50 추정). 성능 개선의 기반은 5월 18일부터 Bugbot을 구동하는 Composer 2.5 모델이다. 6월 5일 Cursor 3.7과 함께 도입된 /review 커맨드는 Bugbot을 '푸시 전 게이트'로 재프레이밍한다. push 전에 Bugbot과 Security Review를 돌리고, /review-bugbot·/review-security로 표적 검사가 가능하다(CLI 지원은 예정). 또한 GitHub·GitLab과 동기화해 동일 diff가 PR로 열리면 재리뷰를 건너뛰는 중복 감지, 직전 실행 이후 변경분만 스캔하는 델타 전용 스캔으로 중복 피드백과 이중 과금을 차단한다.

리뷰 속도가 90초대로 떨어지면 코드리뷰의 위치가 '비동기 PR 코멘트'에서 '커밋 직전 인라인 게이트'로 바뀐다. 즉 봇이 사후 지적자가 아니라 사전 차단기가 되는 것이다. 델타 스캔·중복 감지는 LLM 리뷰의 실전 운영비(토큰 비용·노이즈)를 정조준한 설계로, 자체 LLM 리뷰 파이프라인을 운영하는 팀이라면 '전체 재스캔' 대신 '변경분만' 원칙을 그대로 차용할 만하다.

Digital Applied원문 ↗

NewsAI 코딩중급·2주 전

GitHub Copilot 데스크톱 앱 공개, worktree 격리로 다중 에이전트 병렬 실행

GitHub이 Microsoft Build 2026(6월 2일)에서 Copilot 데스크톱 앱을 테크니컬 프리뷰로 공개했다. Windows 11·macOS·Linux용 독립 앱으로, 여러 AI 에이전트 세션을 동시에 돌리는 '컨트롤 센터'를 표방한다. 핵심은 아키텍처다. 각 에이전트 세션이 자체 git worktree(브랜치 격리 복사본)에서 실행되어, 여러 에이전트가 같은 레포를 병렬로 건드려도 서로의 변경을 덮어쓰지 않는다. worktree 생성·정리는 앱이 자동 관리한다. 단일 'My Work' 뷰에서 활성 세션·이슈·PR·백그라운드 자동화를 한눈에 추적하고, Canvas 인터페이스로 에이전트 작업을 들여다보거나 방향을 재지정할 수 있다. Agent Merge가 CI 상태·리뷰어를 모니터링하며 PR 워크플로를 관리하고, 클라우드/로컬 샌드박스 실행, 커스텀 에이전트 스킬, LaunchDarkly·PagerDuty·Sonar 등 파트너 에이전트 앱 연동도 포함된다. 같은 날 Copilot SDK가 GA로 전환됐고, Copilot CLI는 JetBrains IDE 지원·에이전트 피커·디버그 패널을 추가했다.

병렬 에이전트의 최대 난제였던 '같은 레포 동시 편집 충돌'을 worktree 격리라는 정공법으로 푼 점이 핵심이다. 이는 Claude Code의 멀티 세션, Cursor 클라우드 에이전트와 같은 방향으로, 2026년 코딩 도구 경쟁축이 '단일 에이전트 품질'에서 '다중 에이전트 오케스트레이션'으로 확실히 이동했음을 보여준다. 한국 개발팀은 worktree 기반 격리 패턴을 자체 CI/리뷰 파이프라인에 먼저 도입해 두면, 어느 벤더 앱을 쓰든 병렬 에이전트 전환 비용을 줄일 수 있다.

The GitHub Blog원문 ↗

NewsAI 코딩중급·6일 전

Google, Gemini CLI를 Antigravity CLI로 통합하며 6월 18일 기존 CLI 요청 중단

Google이 Gemini CLI를 Antigravity CLI로 통합한다고 발표했다. 6월 18일부터 Gemini CLI와 Gemini Code Assist IDE 확장은 Google AI Pro·Ultra 및 무료 사용자 요청 처리를 중단하고, Gemini Code Assist for GitHub의 신규 조직 설치도 막힌다(유료 라이선스 조직은 Gemini CLI 계속 사용 가능). 대체재인 Antigravity CLI는 Go로 작성됐고, Antigravity 2.0 데스크톱과 동일한 '에이전트 하니스'를 공유해 코어 에이전트 개선이 CLI·데스크톱 어디서든 자동 반영된다. 출시 시점 1:1 기능 동등성은 없지만 Agent Skills·Hooks·Subagents·Extensions(이제 Antigravity 플러그인)는 유지된다. 전환 명분은 '여러 에이전트가 서로 통신하며 작업을 분할해 복잡한 문제를 푸는' 비동기 멀티에이전트 워크플로 수요다. 한편 Antigravity 2.1.4(6월 11일)는 쿼터 화면 개편, PDF 첨부, 그리고 대화 맥락을 유지한 채 일회성 에이전트로 곁가지 질문을 던지는 /btw 슬래시 커맨드를 추가했다.

Gemini CLI 사용자에게는 사실상 강제 마이그레이션이며, Google이 '단일 에이전트 CLI'를 접고 멀티에이전트 플랫폼(Antigravity)으로 라인업을 일원화한다는 선언이다. 공유 하니스 구조는 Anthropic의 Claude Agent SDK와 같은 발상으로, CLI·IDE·데스크톱이 같은 엔진을 공유하는 흐름이 표준이 되고 있다. Gemini CLI를 CI·스크립트에 박아 쓰던 한국 팀은 6월 18일 전에 Antigravity CLI로의 커맨드·플러그인 이관 영향도를 점검해야 한다.

Google Developers Blog원문 ↗

NewsAI 코딩실전·1주 전

Claude Code, Opus 4.8 기본 탑재로 계획·병렬 서브에이전트·검증 자동화

Anthropic이 5월 28일 출시한 Claude Opus 4.8(claude-opus-4-8)을 Claude Code 기본 모델로 채택했다. 코딩·에이전트·추론 성능이 개선됐고, 특히 자기가 작성한 코드의 결함을 지적 없이 통과시킬 확률이 Opus 4.7 대비 약 4배 낮아져 정직성·신뢰성에 무게를 뒀다. 가격은 입력 100만 토큰당 $5·출력 $25로 4.7과 동일하며, fast 모드는 2.5배 빠르고 3배 저렴해졌다. Claude Code의 핵심 신기능은 '동적 워크플로(dynamic workflows)'로, 작업을 계획하고 병렬 서브에이전트를 띄워 실행한 뒤 산출물을 검증하고 사용자에게 보고하는 루프를 자동화한다(Enterprise·Team·Max 대상 리서치 프리뷰). 또한 보안 가이던스 플러그인이 추가됐고, Claude Code가 터미널·IDE·웹·데스크톱·스케줄 에이전트 워크플로로 확장됐다. 세부 개선으로는 대화 언어로 세션 제목 생성, footerLinksRegexes 설정, Bedrock 자격증명 캐싱 만료 기준 변경, `claude agents --json --all`로 활성/완료 세션 조회 등이 포함된다.

'자기 코드 결함을 4배 덜 눈감는다'는 지표는 에이전트 자율성의 진짜 병목이 능력이 아니라 자기검증 신뢰성임을 정확히 짚는다. 검증 단계를 워크플로에 내장한 dynamic workflows는 Maker→Critic→Integrator 같은 외부 검수 루프를 모델 내부로 끌어들이는 시도다. 다만 리서치 프리뷰가 Max·Team·Enterprise에 한정되므로, 한국의 개인·소규모 팀은 당분간 자체 서브에이전트 검수 패턴을 병행하는 편이 안전하다.

Anthropic / artificialintelligence-news.com원문 ↗

SWE-bench Verified 리더보드 정리: 프런티어 모델과 오픈웨이트의 격차가 한 자릿수로

Cursor Bugbot, /review 프리커밋 게이트로 리뷰 시간 5분에서 90초로 단축

GitHub Copilot 데스크톱 앱 공개, worktree 격리로 다중 에이전트 병렬 실행

Google, Gemini CLI를 Antigravity CLI로 통합하며 6월 18일 기존 CLI 요청 중단

Claude Code, Opus 4.8 기본 탑재로 계획·병렬 서브에이전트·검증 자동화

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글