Google Veo 3.1, 네이티브 오디오 영상 생성으로 Vids·Vertex AI 워크플로 통합
Google Veo 3.1: native-audio video generation across Vids and Vertex AI
구글의 Veo 3 계열은 2026년 상반기에 Veo 3.1로 정비되며 세 개 티어(베이스·Ultra 등)로 나뉘었고, 모든 티어가 네이티브 오디오 생성을 지원한다. 영상에 효과음·앰비언트·대사를 모델이 직접 생성해 입히며, 화면 동작에 묶인 효과음과 입모양 동기화(lip-sync) 대사까지 처리한다. 베이스 모델은 1080p·24fps에서 최대 8초 클립을, Veo 3 Ultra는 4K 출력과 60초 이상 장면 생성을 지원하는 것으로 정리됐다. 4월 2일에는 Google Vids에 Veo 3.1(영상)과 Lyria 3(음악)를 결합한 대규모 기능 업데이트가 공식 발표돼, AI 음악·아바타를 포함한 사내 영상 제작이 한층 자동화됐다. Vertex AI에는 Veo 3.1 Lite와 새 업스케일링 기능이 추가돼 비용·해상도 선택지가 넓어졌다.
Veo의 강점은 모델 성능 자체보다 Vids·Workspace·Vertex AI라는 구글 업무 생태계에 깊게 통합돼 있다는 점이다. 사내 교육·제품 데모·SNS 숏폼을 대량 찍어내야 하는 한국 팀이라면 별도 영상툴을 붙이는 대신 이미 쓰는 Workspace 안에서 음악·아바타까지 일괄 생성하는 경로가 현실적 ROI가 가장 높다. Lite/Ultra 티어 분화는 비용-품질 트레이드오프를 워크로드별로 설계하라는 신호다.
원문 출처
Google Cloud Blog / DeepMind