Category
Google이 Gemini CLI를 Antigravity CLI로 통합한다고 발표했다. 6월 18일부터 Gemini CLI와 Gemini Code Assist IDE 확장은 Google AI Pro·Ultra 및 무료 사용자 요청 처리를 중단하고, Gemini Code Assist for GitHub의 신규 조직 설치도 막힌다(유료 라이선스 조직은 Gemini CLI 계속 사용 가능). 대체재인 Antigravity CLI는 Go로 작성됐고, Antigravity 2.0 데스크톱과 동일한 '에이전트 하니스'를 공유해 코어 에이전트 개선이 CLI·데스크톱 어디서든 자동 반영된다. 출시 시점 1:1 기능 동등성은 없지만 Agent Skills·Hooks·Subagents·Extensions(이제 Antigravity 플러그인)는 유지된다. 전환 명분은 '여러 에이전트가 서로 통신하며 작업을 분할해 복잡한 문제를 푸는' 비동기 멀티에이전트 워크플로 수요다. 한편 Antigravity 2.1.4(6월 11일)는 쿼터 화면 개편, PDF 첨부, 그리고 대화 맥락을 유지한 채 일회성 에이전트로 곁가지 질문을 던지는 /btw 슬래시 커맨드를 추가했다.
Cursor가 6월 10일 Bugbot 업데이트를 출시해 평균 코드리뷰 시간을 약 5분에서 90초로 줄였다(전체 실행의 90%가 3분 내 완료). 동시에 실행당 버그 검출은 0.56→0.62건으로 약 10% 늘고, 실행당 비용은 약 22% 낮아졌다(PR 크기에 따라 $1.00~1.50 추정). 성능 개선의 기반은 5월 18일부터 Bugbot을 구동하는 Composer 2.5 모델이다. 6월 5일 Cursor 3.7과 함께 도입된 /review 커맨드는 Bugbot을 '푸시 전 게이트'로 재프레이밍한다. push 전에 Bugbot과 Security Review를 돌리고, /review-bugbot·/review-security로 표적 검사가 가능하다(CLI 지원은 예정). 또한 GitHub·GitLab과 동기화해 동일 diff가 PR로 열리면 재리뷰를 건너뛰는 중복 감지, 직전 실행 이후 변경분만 스캔하는 델타 전용 스캔으로 중복 피드백과 이중 과금을 차단한다.
Anthropic이 5월 28일 출시한 Claude Opus 4.8(claude-opus-4-8)을 Claude Code 기본 모델로 채택했다. 코딩·에이전트·추론 성능이 개선됐고, 특히 자기가 작성한 코드의 결함을 지적 없이 통과시킬 확률이 Opus 4.7 대비 약 4배 낮아져 정직성·신뢰성에 무게를 뒀다. 가격은 입력 100만 토큰당 $5·출력 $25로 4.7과 동일하며, fast 모드는 2.5배 빠르고 3배 저렴해졌다. Claude Code의 핵심 신기능은 '동적 워크플로(dynamic workflows)'로, 작업을 계획하고 병렬 서브에이전트를 띄워 실행한 뒤 산출물을 검증하고 사용자에게 보고하는 루프를 자동화한다(Enterprise·Team·Max 대상 리서치 프리뷰). 또한 보안 가이던스 플러그인이 추가됐고, Claude Code가 터미널·IDE·웹·데스크톱·스케줄 에이전트 워크플로로 확장됐다. 세부 개선으로는 대화 언어로 세션 제목 생성, footerLinksRegexes 설정, Bedrock 자격증명 캐싱 만료 기준 변경, `claude agents --json --all`로 활성/완료 세션 조회 등이 포함된다.
GitHub이 Microsoft Build 2026(6월 2일)에서 Copilot 데스크톱 앱을 테크니컬 프리뷰로 공개했다. Windows 11·macOS·Linux용 독립 앱으로, 여러 AI 에이전트 세션을 동시에 돌리는 '컨트롤 센터'를 표방한다. 핵심은 아키텍처다. 각 에이전트 세션이 자체 git worktree(브랜치 격리 복사본)에서 실행되어, 여러 에이전트가 같은 레포를 병렬로 건드려도 서로의 변경을 덮어쓰지 않는다. worktree 생성·정리는 앱이 자동 관리한다. 단일 'My Work' 뷰에서 활성 세션·이슈·PR·백그라운드 자동화를 한눈에 추적하고, Canvas 인터페이스로 에이전트 작업을 들여다보거나 방향을 재지정할 수 있다. Agent Merge가 CI 상태·리뷰어를 모니터링하며 PR 워크플로를 관리하고, 클라우드/로컬 샌드박스 실행, 커스텀 에이전트 스킬, LaunchDarkly·PagerDuty·Sonar 등 파트너 에이전트 앱 연동도 포함된다. 같은 날 Copilot SDK가 GA로 전환됐고, Copilot CLI는 JetBrains IDE 지원·에이전트 피커·디버그 패널을 추가했다.
Anthropic의 Code with Claude 2026에서 Claude Code의 멀티 에이전트 오케스트레이션이 한 단계 도약했다. 리드 에이전트가 전문 서브에이전트들에게 작업을 위임하고, 각 서브에이전트는 자신만의 모델·프롬프트·도구를 갖되 공유 파일시스템 위에서 병렬로 일한다. 더 나아가 Claude가 단일 세션 안에서 수십에서 수백 개의 병렬 서브에이전트를 돌리는 오케스트레이션 스크립트를 동적으로 직접 작성하고, 결과가 사용자에게 도달하기 전에 스스로 검증한다. 최근 업데이트로는 중첩 서브에이전트(서브에이전트가 또 서브에이전트를 띄움), 스마트한 모델·리전 처리, 플러그인 검색, Chrome·VSCode·터미널 워크플로 개선이 추가됐다. 기본 모델은 Claude Opus 4.8로, high effort가 기본값이고 가장 어려운 작업에는 /effort xhigh를 쓴다. 발표 5종(Dreaming, Outcomes, 멀티 에이전트 오케스트레이션, 사전 제작 에이전트 10종을 갖춘 Claude Finance, Add-ins) 중 코딩 실무와 직결되는 것이 이 오케스트레이션이다.
Anthropic이 2026년 6월 15일부터 Claude Agent SDK와 claude -p CLI, Claude Code GitHub Actions, Agent SDK 기반 서드파티 앱의 프로그래밍 방식 사용량을 기존 구독 사용량 풀에서 분리한다. 이제 자동화 워크로드는 플랜별로 정해진 별도 월간 크레딧(Pro $20·Max 5x $100·Max 20x $200, API 정가 과금·이월 없음)에서 차감되고, 대화형 Claude Code·Cowork·claude.ai 사용 한도는 그대로 유지된다. 핵심 함정은 크레딧이 소진되면 오버플로 결제를 수동으로 켜두지 않은 한 자동화 요청이 즉시 멈춘다는 점이다. 무인 파이프라인이나 야간 배치로 에이전트를 돌리는 한국 개발팀은 한도 초과 시 조용히 작업이 중단될 수 있어, 모니터링과 오버플로 설정 점검이 필수다.
구글이 2026년 5월 19일 I/O에서 작년 11월 처음 선보였던 Antigravity를 전면 재설계한 2.0을 공개했다. 핵심 전환은 'IDE 안의 어시스턴트'에서 '에이전트 오케스트레이션을 일급 추상으로 둔 독립 데스크톱 앱'으로의 이동이다. 기존 Antigravity IDE와 별개인 독립 데스크톱 앱에 더해 Antigravity CLI, Antigravity SDK, Gemini API의 Managed Agents, 엔터프라이즈용 Gemini Enterprise Agent Platform까지 한 번에 묶어 발표했다. 기본 모델은 Gemini 3.5 Flash로 통일됐다. 무대 데모에서는 병렬 에이전트 군집이 OS 코어를 바닥부터 빌드하고(토큰 비용 1,000달러 미만) 그 위에서 Doom 클론을 라이브로 돌렸다. 단일 코딩 어시스턴트 경쟁에서 벗어나 '멀티 에이전트 워크플로 관리'를 제품의 본질로 재정의했다는 점이 핵심이다. CLI와 SDK를 함께 내놓은 것은 데스크톱 GUI 밖, 즉 CI 파이프라인과 자동화 안에서도 같은 에이전트를 돌릴 수 있게 하려는 포석이다.
Cursor가 2026년 5월 18일 Composer 2.5를 공개했다. 길고 도구 호출이 많은 IDE 세션을 위해 만든 자체 에이전틱 코딩 모델로, SWE-Bench Multilingual 79.8%, CursorBench v3.1 63.2%로 Opus 4.7(61.6%)을 근소하게 앞서는 프런티어 근접 점수를 냈다. 결정적 포인트는 비용이다. Claude Opus 4.7이나 GPT-5.5 대비 API 비용이 약 1/10 수준이라, 에이전트가 도구를 수십 번 호출하는 long-running 세션의 경제성을 바꿔놓는다. Composer 라인은 2025년 10월 첫 자체 모델로 시작해(유사 지능 모델보다 4배 빠르고 대부분 턴을 30초 안에 완료) Composer 2(2026년 3월, 입력 $0.50/M·출력 $2.50/M)를 거쳐 2.5에 이르렀다. 최신 업데이트에서는 서브에이전트가 다시 서브에이전트를 띄울 수 있고, 리뷰어 서브에이전트가 테스트 작성 서브에이전트에게 위임하는 식의 다단 위임이 가능해졌으며 각 단계가 자신의 프롬프트·모델을 유지한다.
에이전트로 빠르게 찍어낸 코드가 프로덕션에 쌓이면서 보안 청구서가 도착하고 있다. Escape.tech가 1,400여 개 애플리케이션을 스캔한 결과 바이브 코딩 프로덕션 앱의 65%에 보안 이슈가 있었고 58%에 최소 한 건의 치명적 취약점이 있었다. 별도 5,600개 공개 배포 앱 스캔에서는 2,000건의 고위험 취약점, API 키·액세스 토큰 등 노출 시크릿 400건, 의료기록·결제정보를 포함한 PII 175건이 발견됐다. 거버넌스 통제가 없을 경우 취약점 발생률이 사람이 쓴 코드의 2.74배에 달했다. AI 보조 커밋의 시크릿 노출률은 3.2%로 사람 커밋의 1.5%보다 높고, 하드코딩 자격증명·약한 인증·입력 검증 부재·XSS·SQL 인젝션, 그리고 공격자가 AI가 추천한 가짜 패키지를 미리 등록해두는 '패키지 환각' 공격이 대표 패턴이다. Georgia Tech의 Vibe Security Radar는 관련 CVE가 1월 6건에서 3월 35건으로 급증했다고 집계했다. 결론은 명확하다 — 바이브 코딩은 보안 스캔·코드 이해·컴플라이언스 통제·도구 통합을 묶은 거버넌스 레이어가 있을 때만 엔터프라이즈에 안전하다.
Cursor에서 Claude Code로 넘어오긴 했는데 자동완성이 그리워서 둘 다 켜놓고 삽니다… 다들 어떻게 조합하시나요?
Cursor가 2026년 IDE 통합에 특화된 에이전틱 코딩 모델 Composer 라인을 밀고 있다. Composer 2(3월 19일)에 이어 Composer 2.5(5월 18일)가 나왔고, 별도로 Cursor 3(4월 2일)가 에디터 출시 이후 가장 큰 구조 변경으로 등장했다. Composer는 MoE 라우팅으로 토큰마다 일부 전문가만 활성화해 속도와 비용을 낮추며, 파일 읽기·터미널 실행·다중 파일 편집·테스트 실행·반복까지 수행한다. 벤더 측 수치로 Composer 2.5는 Claude Opus 4.7이나 GPT-5.5 대비 약 1/10 API 비용으로 준-프런티어 점수를 낸다고 한다. Cursor 3의 핵심은 '에이전트 윈도우'로, 여러 에이전트를 여러 레포·환경에서 병렬 실행하는 에이전트 우선 인터페이스다. 한 명이 한 채팅과 대화하던 방식에서, 여러 에이전트를 오케스트레이션하는 워크플로로 도구의 무게중심이 옮겨가고 있다.
POST마다 400 뜨는데 Copilot은 자신만만하게 헛다리만 짚고, e2e 돌리고서야 잡음. 멀티파일 버그 다들 어떻게 디버깅하세요?
6개월 굴려보니 어떤 도구냐는 안 중요하더라고요. 검수할 눈이 없으면 그냥 빠른 속도로 틀리는 기계입니다.
엑셀 합치기 한 시간 반짜리를 말로 시켜서 없앴는데, 반품 마이너스가 양수로 둔갑한 거 우연히 발견하고 식겁함 ㅋㅋ
Model Context Protocol(MCP) 팀이 2026년 로드맵에서 네 가지 우선순위를 제시했다. ① HTTP 트랜스포트의 수평 확장·세션 관리·메타데이터 기반 서버 디스커버리, ② Tasks 프리미티브 개선(일시적 실패 시 재시도 시맨틱·만료 정책), ③ 컨트리뷰터 사다리와 워킹그룹 위임 모델 같은 거버넌스 성숙, ④ 감사 로그·SSO 인증·설정 이식성 등 엔터프라이즈 준비다. 직전 스펙은 2025년 11월에 나왔고, 로드맵 글(2026년 3월 9일) 기준 이후 새 버전은 발표되지 않았다. MCP는 Anthropic·OpenAI·Google·Microsoft·AWS 등 주요 벤더가 모두 지원하는 사실상 표준으로 자리 잡았기에, MCP 서버를 만들거나 사내 도구를 연결하는 한국 개발자는 스트리머블 HTTP 트랜스포트와 Tasks의 재시도·만료 설계를 미리 이해해두는 게 좋다.
2026년 들어 로컬에서 돌릴 수 있는 오픈웨이트 코딩 모델이 실용 수준에 올라섰다. Alibaba Qwen 팀이 2026년 2월 공개한 Qwen3-Coder-Next는 총 80B MoE 중 한 번에 3B 파라미터만 활성화하는 구조로, 단일 머신에서 약 46GB 메모리로 SWE-bench Verified 70.6%를 달성했다고 보고된다. 같은 시기 GLM-5(Zhipu, MIT 라이선스), MiniMax M2.5 등 프런티어급 오픈소스 모델이 연달아 나오며 상용과의 격차가 좁혀졌다. Qwen은 Qwen3-Coder에 최적화된 오픈소스 터미널 에이전트 Qwen Code도 제공해, Claude Code나 Aider 같은 경험을 오픈 인프라만으로 구성할 수 있다. 보안·데이터 주권이 중요한 한국 팀이나 비용 민감한 프로젝트라면, 외부 API 없이 온프레미스로 에이전틱 코딩을 시도해볼 현실적 선택지가 생겼다.
2026년 SWE-bench Verified 리더보드에서 Anthropic Claude Fable 5(6월 9일 공개)가 95.0%로 선두를 차지했고, Claude Opus 4.8은 88.6%를 기록했다. 주목할 변화는 오픈웨이트 진영의 추격으로, DeepSeek-V4-Pro-Max 80.6%, MiniMax M3 80.5%, Qwen3.7 Max 80.4%가 0.2%p 안에 몰리며 상용 모델과의 격차가 한 자릿수로 좁혀졌다. 또 하나 알아둘 점은 벤치마크 자체의 이동이다. SWE-bench Verified가 포화에 가까워지면서 OpenAI는 Verified 점수 보고를 중단하고 더 어렵고 현실적인 SWE-bench Pro를 권장하기 시작했다. 따라서 한국 개발자는 단일 점수만 보지 말고, 어떤 벤치마크에서 측정됐는지와 실제 작업(태스크당 비용·다국어 코드)을 함께 봐야 한다.
AI 코딩 에이전트는 컨텍스트 윈도우에 들어온 것만 안다. 회사의 아키텍처, 승인된 라이브러리, 폐기된 패턴, 수년 전의 설계 결정은 명시하지 않으면 모른다. 그래서 2026년 현장의 핵심 역량은 모델 선택이 아니라 컨텍스트 엔지니어링이다. 실무 원칙은 다음과 같다. 컨텍스트 파일은 Markdown으로 작성하고(Claude Code·Cursor·Copilot·JetBrains가 공통 지원), Architecture·Conventions·Testing·Anti-patterns·Commands처럼 개발자가 생각하는 방식대로 H2 섹션을 나눈다. 컨텍스트 파일은 코드와 함께 버전 관리하고 아키텍처가 바뀌면 즉시 갱신하며(낡은 컨텍스트는 깨진 코드로 취급), 'X는 절대 쓰지 말고 Y를 써라' 같은 안티패턴 명시는 투자 대비 효과가 가장 큰 항목이다. 탐색과 구현을 분리하고 검증을 포함한 반복 가능한 워크플로를 쓰면, 같은 모델로도 결과의 일관성이 크게 올라간다.