Alibaba Qwen 3.7, 화면 보고 코드 짜는 멀티모달 에이전트 플래그십
Alibaba Launches Qwen3.7-Plus, a Multimodal Agent Model That Sees Screens and Writes Code
Alibaba Qwen 팀이 6월 2일 Qwen3.7-Plus를 Bailian 플랫폼에 출시했다. 텍스트·이미지·비디오를 입력받아 시각 인지와 GUI 조작, 자율 코딩을 하나의 루프에서 결합하는 멀티모달 에이전트 모델로, 비전·심층추론·툴 호출·자율 반복을 갖췄다. 앞서 5월 20일 Alibaba Cloud Summit에서는 Qwen 3.7 Max를 발표했다 — 1M 컨텍스트, 추론 네이티브, 폐쇄 가중치의 DashScope API 전용 에이전트 우선 플래그십이다. 라인업 흐름을 보면 2월 16일 Qwen3.5(397B-A17B MoE, 201개 언어, 이전 세대 대비 8.6~19배 처리량), 4월 Qwen 3.6 두 차례(35B-A3B MoE → 27B 덴스), 5~6월 3.7 Max/Plus로 빠르게 진화했다. 전용 코딩 모델 Qwen3-Coder 480B(480B 총/35B 활성, 7.5조 토큰·70% 코드)는 에이전틱 코딩 벤치마크에서 Claude Sonnet 4와 동급으로 평가됐다. 덴스(0.6B~32B)와 MoE를 Apache 2.0로 폭넓게 오픈하면서, 플래그십(3.7 Max)은 폐쇄·API 전용으로 분리하는 하이브리드 전략을 굳혔다.
Qwen의 '오픈웨이트 다수 + 폐쇄 플래그십' 분리는 DeepSeek과 함께 중국 오픈 진영의 정형화된 비즈니스 모델이 됐다 — 생태계는 Apache 2.0로 장악하고 최상위는 API로 수익화한다. 3.7-Plus처럼 '화면을 보고 GUI를 조작하며 코드를 짜는' 단일 루프 멀티모달 에이전트는 RPA·QA 자동화의 판도를 바꿀 수 있다. 한국 개발자는 온디바이스/사내용은 오픈 덴스 모델, 최고 성능은 DashScope로 분기하는 선택지를 확보했다.
원문 출처
MarkTechPost / Alibaba