Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개
Building a hill-climbing machine: Launching seven new MAI models
Microsoft AI가 6월 2일 자체 개발한 MAI 모델 7종을 한꺼번에 공개했다. 추론 모델 MAI-Thinking-1(체급 내 SWE·수학 강세), GitHub Copilot·VS Code에 통합되는 50억 파라미터 코딩 모델 MAI-Code-1-Flash, 이미지 생성·편집 모델 MAI-Image-2.5와 초경량 변형 Flash, 43개 언어를 경쟁 모델 대비 5배 빠르게 전사하는 MAI-Transcribe-1.5, 15개 언어 음성 합성·보이스 적응 MAI-Voice-2와 저비용 Flash 변형이 포함된다. Microsoft는 추론 모델을 '처음부터(from scratch)' 학습하며 '다른 랩에서 증류(distill)하지 않는다'고 명시했고, 데이터셋이 '깨끗하고 추적 가능하며 엔터프라이즈 등급'이라고 강조했다. 차세대 GB200 클러스터가 가동 중이라고 밝혔다.
OpenAI 의존을 줄이려는 Microsoft의 수직계열화가 텍스트를 넘어 음성·전사·이미지 생성미디어 전 영역으로 확장됐다는 점이 핵심이다. '증류하지 않는다'는 선언은 출처가 깨끗한 학습 데이터를 차별점으로 내세우는 엔터프라이즈 신뢰 전략이다. 한국 개발자에게는 Copilot·Azure 스택에 묶인 음성/전사/이미지 워크로드의 모델 선택지가 늘어나는 동시에, 단일 벤더 종속이 더 깊어지는 양면성을 점검해야 한다.
원문 출처
Microsoft AI