News중급원문 2026년 6월 2일

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

Building a hill-climbing machine: Launching seven new MAI models

Microsoft AI가 6월 2일 자체 개발한 MAI 모델 7종을 한꺼번에 공개했다. 추론 모델 MAI-Thinking-1(체급 내 SWE·수학 강세), GitHub Copilot·VS Code에 통합되는 50억 파라미터 코딩 모델 MAI-Code-1-Flash, 이미지 생성·편집 모델 MAI-Image-2.5와 초경량 변형 Flash, 43개 언어를 경쟁 모델 대비 5배 빠르게 전사하는 MAI-Transcribe-1.5, 15개 언어 음성 합성·보이스 적응 MAI-Voice-2와 저비용 Flash 변형이 포함된다. Microsoft는 추론 모델을 '처음부터(from scratch)' 학습하며 '다른 랩에서 증류(distill)하지 않는다'고 명시했고, 데이터셋이 '깨끗하고 추적 가능하며 엔터프라이즈 등급'이라고 강조했다. 차세대 GB200 클러스터가 가동 중이라고 밝혔다.

OpenAI 의존을 줄이려는 Microsoft의 수직계열화가 텍스트를 넘어 음성·전사·이미지 생성미디어 전 영역으로 확장됐다는 점이 핵심이다. '증류하지 않는다'는 선언은 출처가 깨끗한 학습 데이터를 차별점으로 내세우는 엔터프라이즈 신뢰 전략이다. 한국 개발자에게는 Copilot·Azure 스택에 묶인 음성/전사/이미지 워크로드의 모델 선택지가 늘어나는 동시에, 단일 벤더 종속이 더 깊어지는 양면성을 점검해야 한다.

원문 출처

Microsoft AI

원문 보기 ↗

← Today

생성 이미지·영상·음성 더 보기

생성 이미지·영상·음성 관련 브리핑

News생성 이미지·영상·음성중급·2주 전

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

구글의 이미지 라인업 별칭 '나노 바나나'가 2026년 상반기에 두 단계 도약했다. 2월에 Nano Banana 2(Gemini 3.1 Flash Image)가 'Pro 품질을 Flash 속도로'라는 슬로건과 함께 Gemini 앱에 풀렸고, 6월에는 Gemini 3 Pro 기반의 Nano Banana Pro(Gemini 3 Pro Image)가 정식 출시(GA)됐다. Pro의 핵심 차별점은 텍스트 렌더링이다. Stable Diffusion 시절부터 이미지 속 글자는 거의 항상 알아볼 수 없는 장식성 기호로 깨지는 게 업계의 고질적 실패 모드였는데, Nano Banana Pro는 긴 문장과 다국어 레이아웃까지 읽히는 글자로 안정 출력하는 첫 모델로 평가된다. 네이티브 1K 출력에 2K·4K 업스케일이 내장됐고, 4K 이미지 1장당 0.24달러로 과금된다. 원조 Gemini 2.5 Flash Image(2025년 8월 출시, 2주 만에 5억 장 생성·신규 2,300만 명 유입의 바이럴)는 10월 2일 일부 플랫폼에서 은퇴 예정이라 Pro/3.1 계열로의 이전이 권장된다.

이미지 속 텍스트가 '깨지지 않게' 나온다는 것은 포스터·배너·상세페이지·다국어 목업 같은 실전 산출물에서 디자이너 후작업을 사실상 없애준다는 뜻으로, 한국 커머스·콘텐츠 제작자에게 직접적인 비용 절감 포인트다. 다만 2.5 Flash Image가 1년도 안 돼 은퇴 수순에 든 것처럼 구글 이미지 모델의 교체 주기가 매우 짧으므로, 프로덕션에 박을 땐 모델 ID를 추상화 계층 뒤에 두고 마이그레이션을 전제로 설계해야 한다.

Google DeepMind / blog.google원문 ↗

News생성 이미지·영상·음성중급·2026년 4월 21일

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

OpenAI가 2026년 4월 21일 gpt-image-2(ChatGPT Images 2.0)를 공개했다. 가장 큰 변화는 O-시리즈의 추론 능력을 이미지 생성에 통합한 점으로, 모델이 곧장 픽셀을 뱉는 대신 이미지의 구조와 레이아웃을 먼저 계획·추론한 뒤 생성한다. 그동안 디퓨전 계열의 고질병이던 이미지 내 텍스트 렌더링이 약 99% 정확도로 끌어올려졌고, 라틴 문자뿐 아니라 한국어·일본어·아랍어·힌디·벵골어 등 십수 개 문자 체계를 안정적으로 그린다. 최대 4K 해상도를 지원해 포스터·목업·UI 시안 같은 실무 산출물에 바로 투입할 수 있는 수준이다. ChatGPT와 Codex 사용자에게는 4월 22일부터 제공됐고, 개발자용 API는 5월 초 열렸다. API 가격은 입력 100만 토큰당 8달러, 출력 100만 토큰당 30달러로 책정됐다. 무료 사용자는 1월부터 이미지·영상 생성에서 제외돼 Plus/Pro 전용 흐름으로 정리됐다.

이미지 모델에 '먼저 생각하고 그린다'는 추론 단계가 들어간 것은 텍스트 LLM이 걸어온 chain-of-thought 진화를 이미지가 그대로 밟는 신호다. 한국어 텍스트 렌더링이 사실상 해결됐다는 점은 국내 마케팅·커머스·앱 시안 제작에서 사람 손 디자인을 대체할 임계점을 넘었다는 의미이며, 빌더라면 API 토큰 기반 과금 구조를 고려해 배치 생성 비용을 미리 설계해야 한다.

getimg.ai / OpenAI원문 ↗

News생성 이미지·영상·음성중급·2026년 3월 28일

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

AI 생성물의 출처·진위 표시가 권고에서 규제로 넘어가고 있다. 업계는 두 겹 표준으로 수렴했다. 하나는 C2PA 콘텐츠 자격증명(Content Credentials)으로, 어떤 기기·모델이 만들었는지와 적용된 편집 이력을 서명된 JSON-LD 매니페스트에 기록한다. C2PA 2.1은 2025년 비준돼 ISO/IEC 22144 표준이 됐다. 다른 하나는 SynthID 같은 비가시 워터마크다. 이 스택은 Adobe·Microsoft·OpenAI·Meta·Google과 Leica·Sony·Nikon·Canon 카메라 펌웨어가 지원한다. 규제 측면에서 캘리포니아 SB 942는 2026년 1월 1일 발효됐고, EU AI Act 제50조 집행은 2026년 8월 시작된다. 한국 개발자가 이미지·영상·음성 생성 기능을 서비스에 넣는다면, EU·미국 시장 대상 제품에서는 메타데이터 매니페스트 부착과 워터마킹을 설계 단계부터 고려해야 컴플라이언스 리스크를 피할 수 있다.

C2PA가 ISO 표준이 되고 EU·캘리포니아 규제가 발효되면서, 생성 기능을 넣는 제품은 출처표시를 설계 단계부터 반영해야 한다

Editors Weblog원문 ↗

News생성 이미지·영상·음성중급·2026년 4월 26일

Sora 2, 컨슈머 앱 종료에 API도 9월 일몰

Sora 2는 물리적으로 더 정확한 모션, 컷이 바뀌어도 유지되는 월드 상태(world-state persistence), 그리고 대사·효과음·앰비언트를 영상과 동기화해 함께 생성하는 능력으로 영상 생성의 사실성을 한 단계 끌어올렸다. 1080p Full HD가 표준 출력이 됐고, 동기화된 오디오를 포함한 10~25초 클립을 만든다. 'Character Cameos'로 자신이 생성한 캐릭터·반려동물 등을 새 영상에 불러오는 기능과, IP·실사 인물 콘텐츠를 차단하는 책임형 AI 가드레일도 도입됐다. 다만 운영 동향이 중요하다. 2026년 1월 10일부터 무료 사용자의 생성이 막혀 Plus/Pro 전용이 됐고, 4월 26일 자로 컨슈머용 Sora 앱·웹 경험이 중단됐다. 개발자용 Sora 2 API는 현재까지 작동하지만 2026년 9월 24일 최종 일몰이 예고돼 있어 남은 기간이 제한적이다.

Sora 2는 '음성까지 한 번에 나오는 영상 생성'의 사실상 레퍼런스를 세웠지만, 컨슈머 앱 폐기와 API 일몰 일정은 빌더에게 더 큰 교훈을 준다. 화제성 높은 프런티어 모델이라도 벤더의 제품 전략에 따라 갑자기 사라질 수 있으므로, 영상 파이프라인을 단일 API에 고정하지 말고 Veo·Runway 등으로 대체 가능한 어댑터 구조로 짜야 한다. 일몰 일정이 박힌 API 위에 상용 기능을 올리는 것은 명확한 기술 부채다.

OpenAI / Synergy Labs원문 ↗

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

Sora 2, 컨슈머 앱 종료에 API도 9월 일몰

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글