Google Veo 3.1, 네이티브 오디오와 4K로 영상 생성의 기준을 올리다
Veo 3.1 — Google DeepMind
Google DeepMind의 Veo 3.1은 텍스트 프롬프트 한 번으로 영상과 사운드를 동시에 만들어낸다. 주변음, 효과음, 대사가 단일 모델 패스로 생성되고 립싱크까지 맞아 후처리 없이도 오디오·비주얼이 동기화된다는 점이 핵심이다. 2025년 10월 Veo 3.1이 공개된 뒤 2026년 1월에는 4K 해상도 출력이 더해졌고, 9:16 세로 영상도 네이티브로 지원한다. Google은 Veo를 Imagen 4와 묶어 AI 영상 제작 플랫폼 Flow로도 제공한다. 한국 개발자 입장에서는 영상+음성을 별도 파이프라인으로 합성하던 작업이 하나의 API 호출로 단순화된다는 의미다. 짧은 광고, 숏폼, 제품 데모처럼 사운드 동기화가 중요한 콘텐츠에서 제작 단가와 시간을 크게 줄일 수 있다.
영상과 동기화 오디오를 한 모델로 생성해, 별도 합성 파이프라인 없이 숏폼·광고 제작 비용과 시간을 줄인다
원문 출처
Google DeepMind