Category
Anthropic이 6월 9일 가장 강력한 공개 모델 Claude Fable 5를 출시했다. 동시에 같은 가중치를 공유하는 Mythos 5를 검증된 사이버 방어 인력에게만 제한 공개했다. 핵심은 '한 모델을 두 제품으로' 나눈 설계다. 능력으로 가른 게 아니라 안전 분류기(safety classifier) 한 겹으로 갈랐다. Fable 5는 분류기를 얹어 일반 공개, Mythos 5는 같은 모델에서 사이버 가드레일만 벗겨 핵심 인프라 운영자에게만 잠가뒀다. 벤치마크 전반에서 SOTA이며 일부 항목은 Opus 4.8보다 10%p 이상 높다. 컨텍스트 1M, 최대 출력 128K, 입력 $10·출력 $50/MTok(Opus의 2배). API에서 사고가 바뀐다. 분류기가 정당한 인접 작업(보안 툴링, 생명과학)에서도 오탐 거부를 내므로 stop_reason: 'refusal'이 HTTP 200으로 반환된다. content를 읽기 전에 stop_reason을 먼저 분기해야 한다. 또 thinking이 항상 켜져 있어 thinking 파라미터를 명시하면 거부(disabled는 400), raw 사고연쇄는 절대 반환되지 않고 요약만 제공된다.
Anthropic이 6월 9일 Opus 클래스보다 한 단계 높은 'Mythos급' 모델을 일반에 처음 공개했다. 동일한 기반 모델을 공유하는 두 버전으로, Fable 5는 콘텐츠 분류기를 탑재해 사이버보안·생화학·증류(distillation) 요청 시 Claude Opus 4.8로 자동 폴백하고(세션의 5% 미만 영향), Mythos 5는 인가된 사용자에 한해 이 안전장치를 해제한다. 가격은 두 모델 모두 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러로 'Mythos Preview의 절반 미만'이다. Anthropic은 Fable 5가 '거의 모든 벤치마크에서 SOTA'이며 Cognition의 프런티어 코딩 평가 FrontierCode에서 최고점이라고 밝혔다. 외부 파트너와 1,000시간 넘는 레드팀에서 보편적 탈옥은 발견되지 않았다고 했다. 단, 이 모델들은 6월 12일 美 정부 수출통제 지시로 사흘 만에 접근이 차단됐다.
Google이 5월 19일 Gemini 3.5 Flash를 정식(GA) 출시했고, 6월 들어 제품 통합이 가속됐다. 6월 16일부터 Gemini Enterprise 앱에서 3.5 Flash가 기본 활성화되며 비활성화 토글이 제거된다. 핵심은 'Flash 등급이 이전 세대 Pro를 추월했다'는 점이다 — Terminal-Bench 2.1에서 3.1 Pro 70.3% 대비 76.2%, MCP Atlas 83.6% vs 78.2%, Finance Agent v2 57.9% vs 43.0%, GDPval-AA Elo 1656 vs 1314로 코딩·에이전틱 스위트 전반에서 앞선다. 대신 가격이 올랐다. 글로벌 티어 입력 $1.50·출력 $9.00/MTok(캐시 입력은 90% 할인 $0.15), 비-글로벌 리전은 $1.65/$9.90이다. 이전 Flash 세대 대비 사실상 3배 수준이라 '저렴한 보조 모델'이라는 Flash의 포지셔닝이 흔들린다. 다음 단계인 Gemini 3.5 Pro 정식 GA가 6월 중 예고돼 있으며, 관례적 비율(~10배)을 따르면 $15/$60 수준이 점쳐진다.
DeepSeek이 4월 24일 V4 프리뷰(deepseek-v4-flash·deepseek-v4-pro)를 공개한 뒤 5월 8일 전면 개정 버전을 출시했고, V4 Pro는 '5월의 가장 화제가 된 AI 릴리스'로 꼽혔다. 가장 큰 변화는 1M 토큰 컨텍스트 윈도로, 거대 코드베이스 전체를 한 번에 처리하도록 코딩 최적화된 라인업을 갖췄다. 주목할 점은 NIST 산하 CAISI(AI 표준·혁신 센터)가 5월 2일 V4-Pro에 대한 독립 평가를 발표했다는 것이다 — 사이버, 소프트웨어 엔지니어링, 자연과학, 추상추론, 수학 전반을 다뤘다. 오픈웨이트 진영에서 미국 정부 기관의 공식 평가 대상이 됐다는 점 자체가 신뢰도·역량 양면의 신호다. V4 Pro는 코딩·시스템 레벨 프로그래밍 벤치마크에서 다른 프론티어 모델과 견줄 만한 성능을 보였고, 공개 가중치 + 1M 컨텍스트 + 낮은 토큰 단가 조합으로 자체 호스팅 코딩 에이전트 구축의 비용 효율을 끌어올렸다.
Alibaba Qwen 팀이 6월 2일 Qwen3.7-Plus를 Bailian 플랫폼에 출시했다. 텍스트·이미지·비디오를 입력받아 시각 인지와 GUI 조작, 자율 코딩을 하나의 루프에서 결합하는 멀티모달 에이전트 모델로, 비전·심층추론·툴 호출·자율 반복을 갖췄다. 앞서 5월 20일 Alibaba Cloud Summit에서는 Qwen 3.7 Max를 발표했다 — 1M 컨텍스트, 추론 네이티브, 폐쇄 가중치의 DashScope API 전용 에이전트 우선 플래그십이다. 라인업 흐름을 보면 2월 16일 Qwen3.5(397B-A17B MoE, 201개 언어, 이전 세대 대비 8.6~19배 처리량), 4월 Qwen 3.6 두 차례(35B-A3B MoE → 27B 덴스), 5~6월 3.7 Max/Plus로 빠르게 진화했다. 전용 코딩 모델 Qwen3-Coder 480B(480B 총/35B 활성, 7.5조 토큰·70% 코드)는 에이전틱 코딩 벤치마크에서 Claude Sonnet 4와 동급으로 평가됐다. 덴스(0.6B~32B)와 MoE를 Apache 2.0로 폭넓게 오픈하면서, 플래그십(3.7 Max)은 폐쇄·API 전용으로 분리하는 하이브리드 전략을 굳혔다.
Cohere가 2026년 5월 20일 Command A+를 공개했다. 총 218B·활성 25B의 sparse MoE 모델로, 회사 역사상 처음으로 가중치를 완전 Apache 2.0 라이선스로 풀었다. 핵심은 두 가지 엔지니어링 성과다. 첫째, W4A4 무손실 양자화(lossless quantization)로 NVIDIA H100 단 2장에서 풀 모델을 돌릴 수 있게 했다 — 자체호스팅 진입장벽을 크게 낮춘 지점이다. 둘째, 네이티브 인용 생성(native citation)을 모델 차원에서 지원해, RAG 파이프라인에서 별도 후처리 없이 근거 출처를 토큰 레벨로 붙인다. 추론·멀티모달 이해·다국어(48개 언어, 비유럽어 효율 개선 포함)·검색·툴 사용을 단일 모델에 통합한 '에이전트 워크로드용' 포지셔닝이다. 배포는 Cohere API, Microsoft Foundry의 Managed Compute, 그리고 Hugging Face 무료 데모 스페이스로 열렸다. 메시지는 명확하다 — 주권(sovereign) AI, 즉 규제·에어갭·공공 인프라처럼 데이터가 외부로 나갈 수 없는 환경을 정조준했다.
40페이지 넘는 문서에서 중간 조항 통째로 빠지는 거, 다들 어떻게 잡으세요? 모델을 바꿔야 하나 청킹이 정석인가
Moonshot AI가 2026년 4월 20일 플래그십 오픈웨이트 모델 Kimi K2.6을 공개했다. 총 1T·토큰당 활성 32B의 MoE이며, 1월에 나온 K2.5에서 도입한 'Agent Swarm' 개념을 한층 키웠다. K2.6은 최대 300개 서브에이전트로 fan-out해 약 4,000단계에 걸쳐 협업하는 자기주도 병렬 에이전트 프리미티브를 모델 차원에서 지원한다. 네이티브 INT4 양자화를 탑재해 자체호스팅 부담을 낮췄고, 평가에서 Opus 4.6 추격 + 코딩에서 GPT-5.5와 동률이라는 평이 나왔다. 강점은 에이전틱 코딩과 툴 사용에 집중돼 있다. 경제성 측면에서 K2.6이 가장 빛나는 시나리오는 둘이다 — ① Opus가 너무 비싼 고볼륨 코딩 에이전트, ② 가중치를 직접 감사·자체호스팅해야 하는 규제/에어갭 환경. 즉 '비싼 프런티어 코딩모델의 오픈웨이트 대체재'라는 포지션이 분명하다. K2.5(1월)→K2.6(4월)로 분기 단위 갱신 속도를 보이며 오픈 진영의 코딩 선두를 자처하고 있다.
메타가 2026년 4월 8일 Meta Superintelligence Labs 명의로 Muse Spark를 공개했다. 음성·텍스트·이미지를 받는 네이티브 멀티모달 추론 모델로, 내부 코드명은 'Avocado' — 원래 Llama 5의 코드명으로 유출됐던 그 이름이다. 결정적 변화는 라이선스다. Llama 계열의 오픈웨이트 전통을 깨고 Muse Spark는 폐쇄형(proprietary), API 전용으로 출시됐다. meta.ai에서는 무료지만 API는 초대제이고 공개 가격은 아직 없다. 성능은 'frontier 진입, 일부 우위'로 요약된다. Artificial Analysis Intelligence Index 52, HealthBench Hard 42.8과 Humanity's Last Exam(Contemplating 모드) 50.2%에서 선두를 기록했지만, 코딩(Terminal-Bench·SWE-bench)과 에이전트 작업에서는 GPT-5.4·Claude Opus 4.6에 뚜렷이 뒤진다. 한편 진짜 오픈소스 플래그십이었던 Llama 5(Avocado)는 Q1 2026 목표에서 2027로 밀렸고, Behemoth는 공개도 공식 취소도 없이 사실상 사장된 상태다.
구글 딥마인드가 2026년 2월 19일 Gemini 3.1 Pro를 프리뷰로 공개했다. 직전 Gemini 3 Pro 대비 추론 성능을 2배 이상 끌어올렸고, 출시와 동시에 3 Pro 프리뷰를 종료(deprecate)시키며 플래그십을 교체했다. 벤치마크가 강력하다. SWE-bench Verified 80.6%(Claude Opus 4.6의 80.8%와 사실상 동급), GPQA Diamond 94.3%, 그리고 ARC-AGI-2에서 77.1%로 전작 31.1%의 두 배를 넘겼다. 컨텍스트는 100만 토큰 입력·6.5만 토큰 출력을 유지한다. 실무자가 주목할 부분은 thinking level이다. Low/Medium/High에 더해 Max까지 4단계를 노출해, 요청마다 추론 깊이와 비용·지연을 직접 트레이드오프할 수 있다(자동완성은 Low, 코드리뷰는 Medium, 복잡한 디버깅은 High 식). 가격은 입력 100만 토큰당 $2, 출력 $12로 전작과 동일하게 동결했다. 금융·스프레드시트 등 에이전트 도메인에서의 동작 개선도 명시됐다.
정의문 열 줄 늘리는 것보다, 자주 틀리던 경계 케이스 few-shot 3개가 훨씬 잘 먹혔다
Mistral이 2025년 12월 2일 Mistral 3 패밀리를 공개했고, 그 정점이 Mistral Large 3다. Mixtral 이후 처음 돌아온 MoE로, 총 675B·활성 41B 파라미터 구조다 — 41B 덴스 모델 수준의 연산 비용으로 675B의 용량을 끌어쓴다는 설계다. 라이선스는 Apache 2.0으로 가중치를 전면 공개했고, 14B·8B·3B 덴스 소형 모델도 함께 풀었다. 가격이 공격적이다. 입력 100만 토큰당 $0.50, 출력 $1.50로 주요 상용 플래그십 대비 약 80% 저렴하다. 컨텍스트는 256k, 멀티모달을 지원한다. 다만 절대 지능 점수는 냉정히 봐야 한다. Artificial Analysis Intelligence Index 23으로, 비추론(non-reasoning) 오픈웨이트 동급 중에서는 평균 이하이고 출력 속도(52 tok/s)도 평범하다. 대신 첫 토큰 지연(TTFT 1.11s)은 경쟁력 있고, 단일 8×A100/8×H100 노드 또는 Blackwell NVL72에서 vLLM으로 효율 구동하도록 최적화 체크포인트를 제공한다.
Anthropic이 2026년 5월 28일 Claude Opus 4.8을 공개했다. API 모델 ID는 claude-opus-4-8이며 기본 단가는 입력 100만 토큰당 $5, 출력 $25로 이전 세대와 동일하게 유지됐다. 주목할 변화는 Fast 모드 단가가 입력 $10·출력 $50로 떨어져 직전 세대 대비 약 3배 저렴해진 점이다. 코딩·에이전트 작업·전문 업무 성능이 강화됐고, 결함을 그냥 지나칠 확률이 약 4분의 1로 줄었다고 한다. Claude Code에는 한 세션에서 수백 개의 서브에이전트를 병렬로 돌리는 동적 워크플로우가 들어갔고, claude.ai와 Cowork에서 사용자가 직접 추론 강도(effort)를 고를 수 있게 됐다. Opus 4.8·4.7과 Sonnet 4.6은 추가 요금 없이 100만 토큰 컨텍스트를 지원한다.
매번 같은 데서 줄줄 새서 박아둔 체크리스트. 라우팅·max_tokens·caching 순으로 깎이는데, 진짜 범인은 보통 로깅 안 붙여서 못 찾는 프론트 코드임.
"Flash 싸던데" 체감 말고 1,200장 떼서 정확도·장당비용 숫자로 박아봄. 결론은 내 케이스 한정.
LLM 응답을 정규식으로 긁어 JSON을 추려내는 방식은 이제 안티패턴이다. 핵심은 스키마를 한 번 정의하고, 그 JSON 스키마를 모델에 형식 지시로 넘긴 뒤, 응답을 원본 스키마로 다시 검증하는 흐름이다. 제약 디코딩 기반의 네이티브 구조화 출력은 스키마 유효성을 사실상 보장하며, 스키마 없는 JSON 모드는 약 8~15% 비율로 실패한다고 보고된다. 제공사마다 결이 다른데, OpenAI·Gemini는 response_format/스키마 기반 strict 모드를, Claude는 input_schema를 갖춘 도구 정의(tool use)와 tool_choice 패턴을 쓴다. 또한 vLLM·Ollama 등 셀프 호스팅 런타임도 스키마 기반 출력 제어를 노출한다. 스키마 강제는 호출당 토큰이 다소 늘지만 재시도 비용을 없애므로, 복잡한 스키마는 잘게 쪼개 병렬 호출로 처리하는 편이 비용 효율적이다.
긴 시스템 프롬프트나 문서를 매 호출 그대로 다시 보내면 입력 토큰 비용이 누적된다. 프롬프트 캐싱은 변하지 않는 앞부분(프리픽스)을 캐시해 캐시된 입력 비용을 약 90%까지 낮춘다. 설계 원칙은 단순하다. 고정적인 부분(시스템 지시, 도구 정의, 참조 문서)을 프롬프트 앞쪽에 모으고, 사용자별로 바뀌는 내용은 뒤로 빼서 캐시 프리픽스를 최대화하는 것이다. Claude의 경우 2026년 2월 5일부터 캐시가 조직이 아닌 워크스페이스 단위로 격리되어 같은 조직 내 워크스페이스 간 데이터가 분리된다. Opus 4.5+·Sonnet 4.6+에서는 이전 thinking 블록이 기본 보존되어 캐시 프리픽스에 포함된다. 대화가 윈도우나 예산을 넘길 만큼 길어질 때는 컨텍스트 컴팩션(베타)으로 한 번 요약 비용을 치르고 이후 작은 컨텍스트를 들고 가는 선택지도 있다.
2026년 상반기 오픈 웨이트 모델이 프런티어와의 격차를 빠르게 좁혔다. DeepSeek V4-Pro는 SWE-bench Verified에서 80.6%를 기록해 상위 폐쇄형 모델과 0.2포인트 차이까지 따라붙었고 MIT 라이선스로 풀렸다. Qwen 3.5는 397B 총 파라미터(패스당 17B 활성)에 201개 언어와 100만 토큰 컨텍스트를 지원하는 비전·언어 통합 모델이며, Qwen 3.6은 Apache-2.0으로 공개됐다. 6월에는 MiniMax M3가 프런티어급 코딩·100만 컨텍스트·네이티브 멀티모달을 결합한 첫 오픈 웨이트 모델로 등장했다. 라이선스·활성 파라미터·컨텍스트 길이가 모델마다 크게 다르므로, 자체 호스팅 시 vLLM 같은 서빙 스택과 GPU 메모리 요건을 함께 따져야 한다.
Google의 Gemini 3 계열이 2026년 들어 빠르게 확장됐다. 2월 19일 Gemini 3.1 Pro Preview, 3월 3일 Gemini 3.1 Flash-Lite Preview가 나왔고, 5월 19일에는 에이전트·코딩에서 지속적인 프런티어 성능을 노린 Gemini 3.5 Flash가 정식(GA)으로 공개됐다. 개발자 입장에서 핵심은 두 가지다. 첫째, Gemini 3부터 도입된 thinking_level 파라미터로 응답 전 모델이 얼마나 깊게 추론할지 상한을 제어할 수 있다. 둘째, Gemini API의 Managed Agents가 퍼블릭 프리뷰로 풀려, Google이 호스팅하는 격리된 리눅스 샌드박스에서 상태를 유지하는 자율 에이전트를 만들고 배포할 수 있게 됐다. 추론 깊이 제어는 비용·지연과 직결되므로 워크로드별로 조정하는 것이 권장된다.
OpenAI가 2026년 4월 24일 GPT-5.5와 GPT-5.5 Pro를 API로 제공하기 시작했다. GPT-5.5는 현재 OpenAI의 최상위 모델로, 여러 단계를 거치며 도구를 쓰는 장기 에이전트 작업과 코딩·지식 노동에 초점을 맞췄다. 5월 5일에는 저지연을 유지하면서 법률·의료·금융 같은 민감 영역의 환각을 줄인 GPT-5.5 Instant가 공개되어 ChatGPT 기본 모델로 채택됐다. 앞서 3월에는 GPT-5.4와 경량판 GPT-5.4 mini·nano가 나왔고, nano는 API로 제공된다. 정확한 토큰 단가와 모델별 한계는 공식 모델 문서에서 확인해야 하며, 버전 명칭이 빠르게 갈리므로 호출 시 모델 ID를 명시적으로 고정하는 것이 안전하다.