News중급

Google Veo 3.1, 네이티브 오디오와 4K로 영상 생성의 기준을 올리다

Veo 3.1 — Google DeepMind

Google DeepMind의 Veo 3.1은 텍스트 프롬프트 한 번으로 영상과 사운드를 동시에 만들어낸다. 주변음, 효과음, 대사가 단일 모델 패스로 생성되고 립싱크까지 맞아 후처리 없이도 오디오·비주얼이 동기화된다는 점이 핵심이다. 2025년 10월 Veo 3.1이 공개된 뒤 2026년 1월에는 4K 해상도 출력이 더해졌고, 9:16 세로 영상도 네이티브로 지원한다. Google은 Veo를 Imagen 4와 묶어 AI 영상 제작 플랫폼 Flow로도 제공한다. 한국 개발자 입장에서는 영상+음성을 별도 파이프라인으로 합성하던 작업이 하나의 API 호출로 단순화된다는 의미다. 짧은 광고, 숏폼, 제품 데모처럼 사운드 동기화가 중요한 콘텐츠에서 제작 단가와 시간을 크게 줄일 수 있다.

영상과 동기화 오디오를 한 모델로 생성해, 별도 합성 파이프라인 없이 숏폼·광고 제작 비용과 시간을 줄인다

원문 출처

Google DeepMind

원문 보기 ↗

← Today

생성 이미지·영상·음성 더 보기

생성 이미지·영상·음성 관련 브리핑

News생성 이미지·영상·음성중급·2주 전

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

구글의 이미지 라인업 별칭 '나노 바나나'가 2026년 상반기에 두 단계 도약했다. 2월에 Nano Banana 2(Gemini 3.1 Flash Image)가 'Pro 품질을 Flash 속도로'라는 슬로건과 함께 Gemini 앱에 풀렸고, 6월에는 Gemini 3 Pro 기반의 Nano Banana Pro(Gemini 3 Pro Image)가 정식 출시(GA)됐다. Pro의 핵심 차별점은 텍스트 렌더링이다. Stable Diffusion 시절부터 이미지 속 글자는 거의 항상 알아볼 수 없는 장식성 기호로 깨지는 게 업계의 고질적 실패 모드였는데, Nano Banana Pro는 긴 문장과 다국어 레이아웃까지 읽히는 글자로 안정 출력하는 첫 모델로 평가된다. 네이티브 1K 출력에 2K·4K 업스케일이 내장됐고, 4K 이미지 1장당 0.24달러로 과금된다. 원조 Gemini 2.5 Flash Image(2025년 8월 출시, 2주 만에 5억 장 생성·신규 2,300만 명 유입의 바이럴)는 10월 2일 일부 플랫폼에서 은퇴 예정이라 Pro/3.1 계열로의 이전이 권장된다.

이미지 속 텍스트가 '깨지지 않게' 나온다는 것은 포스터·배너·상세페이지·다국어 목업 같은 실전 산출물에서 디자이너 후작업을 사실상 없애준다는 뜻으로, 한국 커머스·콘텐츠 제작자에게 직접적인 비용 절감 포인트다. 다만 2.5 Flash Image가 1년도 안 돼 은퇴 수순에 든 것처럼 구글 이미지 모델의 교체 주기가 매우 짧으므로, 프로덕션에 박을 땐 모델 ID를 추상화 계층 뒤에 두고 마이그레이션을 전제로 설계해야 한다.

Google DeepMind / blog.google원문 ↗

News생성 이미지·영상·음성중급·2주 전

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

Microsoft AI가 6월 2일 자체 개발한 MAI 모델 7종을 한꺼번에 공개했다. 추론 모델 MAI-Thinking-1(체급 내 SWE·수학 강세), GitHub Copilot·VS Code에 통합되는 50억 파라미터 코딩 모델 MAI-Code-1-Flash, 이미지 생성·편집 모델 MAI-Image-2.5와 초경량 변형 Flash, 43개 언어를 경쟁 모델 대비 5배 빠르게 전사하는 MAI-Transcribe-1.5, 15개 언어 음성 합성·보이스 적응 MAI-Voice-2와 저비용 Flash 변형이 포함된다. Microsoft는 추론 모델을 '처음부터(from scratch)' 학습하며 '다른 랩에서 증류(distill)하지 않는다'고 명시했고, 데이터셋이 '깨끗하고 추적 가능하며 엔터프라이즈 등급'이라고 강조했다. 차세대 GB200 클러스터가 가동 중이라고 밝혔다.

OpenAI 의존을 줄이려는 Microsoft의 수직계열화가 텍스트를 넘어 음성·전사·이미지 생성미디어 전 영역으로 확장됐다는 점이 핵심이다. '증류하지 않는다'는 선언은 출처가 깨끗한 학습 데이터를 차별점으로 내세우는 엔터프라이즈 신뢰 전략이다. 한국 개발자에게는 Copilot·Azure 스택에 묶인 음성/전사/이미지 워크로드의 모델 선택지가 늘어나는 동시에, 단일 벤더 종속이 더 깊어지는 양면성을 점검해야 한다.

Microsoft AI원문 ↗

News생성 이미지·영상·음성중급·2026년 4월 21일

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

OpenAI가 2026년 4월 21일 gpt-image-2(ChatGPT Images 2.0)를 공개했다. 가장 큰 변화는 O-시리즈의 추론 능력을 이미지 생성에 통합한 점으로, 모델이 곧장 픽셀을 뱉는 대신 이미지의 구조와 레이아웃을 먼저 계획·추론한 뒤 생성한다. 그동안 디퓨전 계열의 고질병이던 이미지 내 텍스트 렌더링이 약 99% 정확도로 끌어올려졌고, 라틴 문자뿐 아니라 한국어·일본어·아랍어·힌디·벵골어 등 십수 개 문자 체계를 안정적으로 그린다. 최대 4K 해상도를 지원해 포스터·목업·UI 시안 같은 실무 산출물에 바로 투입할 수 있는 수준이다. ChatGPT와 Codex 사용자에게는 4월 22일부터 제공됐고, 개발자용 API는 5월 초 열렸다. API 가격은 입력 100만 토큰당 8달러, 출력 100만 토큰당 30달러로 책정됐다. 무료 사용자는 1월부터 이미지·영상 생성에서 제외돼 Plus/Pro 전용 흐름으로 정리됐다.

이미지 모델에 '먼저 생각하고 그린다'는 추론 단계가 들어간 것은 텍스트 LLM이 걸어온 chain-of-thought 진화를 이미지가 그대로 밟는 신호다. 한국어 텍스트 렌더링이 사실상 해결됐다는 점은 국내 마케팅·커머스·앱 시안 제작에서 사람 손 디자인을 대체할 임계점을 넘었다는 의미이며, 빌더라면 API 토큰 기반 과금 구조를 고려해 배치 생성 비용을 미리 설계해야 한다.

getimg.ai / OpenAI원문 ↗

News생성 이미지·영상·음성중급·2026년 3월 28일

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

AI 생성물의 출처·진위 표시가 권고에서 규제로 넘어가고 있다. 업계는 두 겹 표준으로 수렴했다. 하나는 C2PA 콘텐츠 자격증명(Content Credentials)으로, 어떤 기기·모델이 만들었는지와 적용된 편집 이력을 서명된 JSON-LD 매니페스트에 기록한다. C2PA 2.1은 2025년 비준돼 ISO/IEC 22144 표준이 됐다. 다른 하나는 SynthID 같은 비가시 워터마크다. 이 스택은 Adobe·Microsoft·OpenAI·Meta·Google과 Leica·Sony·Nikon·Canon 카메라 펌웨어가 지원한다. 규제 측면에서 캘리포니아 SB 942는 2026년 1월 1일 발효됐고, EU AI Act 제50조 집행은 2026년 8월 시작된다. 한국 개발자가 이미지·영상·음성 생성 기능을 서비스에 넣는다면, EU·미국 시장 대상 제품에서는 메타데이터 매니페스트 부착과 워터마킹을 설계 단계부터 고려해야 컴플라이언스 리스크를 피할 수 있다.

C2PA가 ISO 표준이 되고 EU·캘리포니아 규제가 발효되면서, 생성 기능을 넣는 제품은 출처표시를 설계 단계부터 반영해야 한다

Editors Weblog원문 ↗

Google Veo 3.1, 네이티브 오디오와 4K로 영상 생성의 기준을 올리다

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글