News실전원문 2026년 6월 2일

Alibaba Qwen 3.7, 화면 보고 코드 짜는 멀티모달 에이전트 플래그십

Alibaba Launches Qwen3.7-Plus, a Multimodal Agent Model That Sees Screens and Writes Code

Alibaba Qwen 팀이 6월 2일 Qwen3.7-Plus를 Bailian 플랫폼에 출시했다. 텍스트·이미지·비디오를 입력받아 시각 인지와 GUI 조작, 자율 코딩을 하나의 루프에서 결합하는 멀티모달 에이전트 모델로, 비전·심층추론·툴 호출·자율 반복을 갖췄다. 앞서 5월 20일 Alibaba Cloud Summit에서는 Qwen 3.7 Max를 발표했다 — 1M 컨텍스트, 추론 네이티브, 폐쇄 가중치의 DashScope API 전용 에이전트 우선 플래그십이다. 라인업 흐름을 보면 2월 16일 Qwen3.5(397B-A17B MoE, 201개 언어, 이전 세대 대비 8.6~19배 처리량), 4월 Qwen 3.6 두 차례(35B-A3B MoE → 27B 덴스), 5~6월 3.7 Max/Plus로 빠르게 진화했다. 전용 코딩 모델 Qwen3-Coder 480B(480B 총/35B 활성, 7.5조 토큰·70% 코드)는 에이전틱 코딩 벤치마크에서 Claude Sonnet 4와 동급으로 평가됐다. 덴스(0.6B~32B)와 MoE를 Apache 2.0로 폭넓게 오픈하면서, 플래그십(3.7 Max)은 폐쇄·API 전용으로 분리하는 하이브리드 전략을 굳혔다.

Qwen의 '오픈웨이트 다수 + 폐쇄 플래그십' 분리는 DeepSeek과 함께 중국 오픈 진영의 정형화된 비즈니스 모델이 됐다 — 생태계는 Apache 2.0로 장악하고 최상위는 API로 수익화한다. 3.7-Plus처럼 '화면을 보고 GUI를 조작하며 코드를 짜는' 단일 루프 멀티모달 에이전트는 RPA·QA 자동화의 판도를 바꿀 수 있다. 한국 개발자는 온디바이스/사내용은 오픈 덴스 모델, 최고 성능은 DashScope로 분기하는 선택지를 확보했다.

원문 출처

MarkTechPost / Alibaba

원문 보기 ↗

← Today

AI 모델·API 더 보기

AI 모델·API 관련 브리핑

NewsAI 모델·API중급·1주 전

Anthropic, 민감 주제는 Opus 4.8로 폴백하는 Claude Fable 5 공개

Anthropic이 6월 9일 Opus 클래스보다 한 단계 높은 'Mythos급' 모델을 일반에 처음 공개했다. 동일한 기반 모델을 공유하는 두 버전으로, Fable 5는 콘텐츠 분류기를 탑재해 사이버보안·생화학·증류(distillation) 요청 시 Claude Opus 4.8로 자동 폴백하고(세션의 5% 미만 영향), Mythos 5는 인가된 사용자에 한해 이 안전장치를 해제한다. 가격은 두 모델 모두 입력 100만 토큰당 10달러, 출력 100만 토큰당 50달러로 'Mythos Preview의 절반 미만'이다. Anthropic은 Fable 5가 '거의 모든 벤치마크에서 SOTA'이며 Cognition의 프런티어 코딩 평가 FrontierCode에서 최고점이라고 밝혔다. 외부 파트너와 1,000시간 넘는 레드팀에서 보편적 탈옥은 발견되지 않았다고 했다. 단, 이 모델들은 6월 12일 美 정부 수출통제 지시로 사흘 만에 접근이 차단됐다.

동일 가중치를 안전장치만 달리해 두 SKU로 출시한 구조는 '안전을 모델이 아니라 배포 레이어에 둔다'는 프런티어 랩의 새 운영 모델을 보여준다. 민감 질의를 하위 모델로 라우팅하는 폴백은 능력과 책임을 분리하는 실용적 패턴이지만, 곧바로 정부 회수로 이어진 점은 '안전 SKU'조차 규제 리스크를 상쇄하지 못함을 드러낸다. API 가격 절반 인하는 프런티어급 토큰 단가 경쟁이 가속되고 있다는 실무 신호다.

Anthropic / Tom's Hardware원문 ↗

NewsAI 모델·API초급·2주 전

Google Gemini 3.5 Flash GA, 작년 Pro 능가했지만 가격은 3배

Google이 5월 19일 Gemini 3.5 Flash를 정식(GA) 출시했고, 6월 들어 제품 통합이 가속됐다. 6월 16일부터 Gemini Enterprise 앱에서 3.5 Flash가 기본 활성화되며 비활성화 토글이 제거된다. 핵심은 'Flash 등급이 이전 세대 Pro를 추월했다'는 점이다 — Terminal-Bench 2.1에서 3.1 Pro 70.3% 대비 76.2%, MCP Atlas 83.6% vs 78.2%, Finance Agent v2 57.9% vs 43.0%, GDPval-AA Elo 1656 vs 1314로 코딩·에이전틱 스위트 전반에서 앞선다. 대신 가격이 올랐다. 글로벌 티어 입력 $1.50·출력 $9.00/MTok(캐시 입력은 90% 할인 $0.15), 비-글로벌 리전은 $1.65/$9.90이다. 이전 Flash 세대 대비 사실상 3배 수준이라 '저렴한 보조 모델'이라는 Flash의 포지셔닝이 흔들린다. 다음 단계인 Gemini 3.5 Pro 정식 GA가 6월 중 예고돼 있으며, 관례적 비율(~10배)을 따르면 $15/$60 수준이 점쳐진다.

'Flash가 작년 Pro를 이긴다'는 건 모델 등급 인플레이션의 전형이다 — 같은 이름의 하위 티어가 1년 전 상위 티어를 추월하는 속도가 비용 절감보다 빠르다. 다만 가격이 3배 오르면서 Flash의 '싸고 빠른 백업' 정체성이 약해졌다. 한국 개발자는 모델명만 보고 비용을 가정하지 말고 캐시 입력 90% 할인($0.15)을 적극 활용하는 프롬프트 캐싱 설계로 실효 단가를 낮춰야 한다.

DataNorth AI / Google AI for Developers원문 ↗

NewsAI 모델·API실전·2주 전

DeepSeek V4 Pro, 1M 컨텍스트 오픈웨이트 코딩 모델로 NIST 독립 평가까지

DeepSeek이 4월 24일 V4 프리뷰(deepseek-v4-flash·deepseek-v4-pro)를 공개한 뒤 5월 8일 전면 개정 버전을 출시했고, V4 Pro는 '5월의 가장 화제가 된 AI 릴리스'로 꼽혔다. 가장 큰 변화는 1M 토큰 컨텍스트 윈도로, 거대 코드베이스 전체를 한 번에 처리하도록 코딩 최적화된 라인업을 갖췄다. 주목할 점은 NIST 산하 CAISI(AI 표준·혁신 센터)가 5월 2일 V4-Pro에 대한 독립 평가를 발표했다는 것이다 — 사이버, 소프트웨어 엔지니어링, 자연과학, 추상추론, 수학 전반을 다뤘다. 오픈웨이트 진영에서 미국 정부 기관의 공식 평가 대상이 됐다는 점 자체가 신뢰도·역량 양면의 신호다. V4 Pro는 코딩·시스템 레벨 프로그래밍 벤치마크에서 다른 프론티어 모델과 견줄 만한 성능을 보였고, 공개 가중치 + 1M 컨텍스트 + 낮은 토큰 단가 조합으로 자체 호스팅 코딩 에이전트 구축의 비용 효율을 끌어올렸다.

오픈웨이트 모델이 미국 정부 표준기관(NIST CAISI)의 공식 평가 대상이 됐다는 건 '오픈 = 미검증'이라는 통념이 깨지고 있다는 뜻이다. 한국 팀에게 V4 Pro는 데이터 주권·비용이 중요한 사내 코딩 에이전트를 폐쇄 API 대신 자체 호스팅으로 구축할 수 있는 현실적 선택지가 된다. 1M 컨텍스트로 모노레포 전체를 컨텍스트에 올리는 워크플로가 오픈웨이트에서도 가능해졌다.

SitePoint / NIST CAISI원문 ↗

NewsAI 모델·API중급·1주 전

Anthropic, 한 모델 두 제품 안전 분기 설계의 최강 플래그십 Claude Fable 5 공개

Anthropic이 6월 9일 가장 강력한 공개 모델 Claude Fable 5를 출시했다. 동시에 같은 가중치를 공유하는 Mythos 5를 검증된 사이버 방어 인력에게만 제한 공개했다. 핵심은 '한 모델을 두 제품으로' 나눈 설계다. 능력으로 가른 게 아니라 안전 분류기(safety classifier) 한 겹으로 갈랐다. Fable 5는 분류기를 얹어 일반 공개, Mythos 5는 같은 모델에서 사이버 가드레일만 벗겨 핵심 인프라 운영자에게만 잠가뒀다. 벤치마크 전반에서 SOTA이며 일부 항목은 Opus 4.8보다 10%p 이상 높다. 컨텍스트 1M, 최대 출력 128K, 입력 $10·출력 $50/MTok(Opus의 2배). API에서 사고가 바뀐다. 분류기가 정당한 인접 작업(보안 툴링, 생명과학)에서도 오탐 거부를 내므로 stop_reason: 'refusal'이 HTTP 200으로 반환된다. content를 읽기 전에 stop_reason을 먼저 분기해야 한다. 또 thinking이 항상 켜져 있어 thinking 파라미터를 명시하면 거부(disabled는 400), raw 사고연쇄는 절대 반환되지 않고 요약만 제공된다.

능력이 아니라 '안전 분류기 한 겹'으로 동일 모델을 두 상품으로 가른 건 프론티어 모델 배포 전략의 전환점이다. 한국 개발자 입장에서 실무 충격은 refusal을 정상 응답 경로로 처리해야 한다는 점이다. content[0]을 무조건 읽는 기존 코드는 거부 시 인덱스 에러로 깨지므로, fable-5를 쓴다면 서버사이드 fallbacks 옵션을 기본 탑재해 거부를 Opus 4.8로 자동 우회시키는 패턴이 사실상 표준이 된다.

Anthropic원문 ↗

Alibaba Qwen 3.7, 화면 보고 코드 짜는 멀티모달 에이전트 플래그십

Anthropic, 민감 주제는 Opus 4.8로 폴백하는 Claude Fable 5 공개

Google Gemini 3.5 Flash GA, 작년 Pro 능가했지만 가격은 3배

DeepSeek V4 Pro, 1M 컨텍스트 오픈웨이트 코딩 모델로 NIST 독립 평가까지

Anthropic, 한 모델 두 제품 안전 분기 설계의 최강 플래그십 Claude Fable 5 공개

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글