News초급원문 2026년 4월 16일

Google Veo 3.1, 네이티브 오디오 영상 생성으로 Vids·Vertex AI 워크플로 통합

Google Veo 3.1: native-audio video generation across Vids and Vertex AI

구글의 Veo 3 계열은 2026년 상반기에 Veo 3.1로 정비되며 세 개 티어(베이스·Ultra 등)로 나뉘었고, 모든 티어가 네이티브 오디오 생성을 지원한다. 영상에 효과음·앰비언트·대사를 모델이 직접 생성해 입히며, 화면 동작에 묶인 효과음과 입모양 동기화(lip-sync) 대사까지 처리한다. 베이스 모델은 1080p·24fps에서 최대 8초 클립을, Veo 3 Ultra는 4K 출력과 60초 이상 장면 생성을 지원하는 것으로 정리됐다. 4월 2일에는 Google Vids에 Veo 3.1(영상)과 Lyria 3(음악)를 결합한 대규모 기능 업데이트가 공식 발표돼, AI 음악·아바타를 포함한 사내 영상 제작이 한층 자동화됐다. Vertex AI에는 Veo 3.1 Lite와 새 업스케일링 기능이 추가돼 비용·해상도 선택지가 넓어졌다.

Veo의 강점은 모델 성능 자체보다 Vids·Workspace·Vertex AI라는 구글 업무 생태계에 깊게 통합돼 있다는 점이다. 사내 교육·제품 데모·SNS 숏폼을 대량 찍어내야 하는 한국 팀이라면 별도 영상툴을 붙이는 대신 이미 쓰는 Workspace 안에서 음악·아바타까지 일괄 생성하는 경로가 현실적 ROI가 가장 높다. Lite/Ultra 티어 분화는 비용-품질 트레이드오프를 워크로드별로 설계하라는 신호다.

원문 출처

Google Cloud Blog / DeepMind

원문 보기 ↗

← Today

생성 이미지·영상·음성 더 보기

생성 이미지·영상·음성 관련 브리핑

News생성 이미지·영상·음성중급·2주 전

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

구글의 이미지 라인업 별칭 '나노 바나나'가 2026년 상반기에 두 단계 도약했다. 2월에 Nano Banana 2(Gemini 3.1 Flash Image)가 'Pro 품질을 Flash 속도로'라는 슬로건과 함께 Gemini 앱에 풀렸고, 6월에는 Gemini 3 Pro 기반의 Nano Banana Pro(Gemini 3 Pro Image)가 정식 출시(GA)됐다. Pro의 핵심 차별점은 텍스트 렌더링이다. Stable Diffusion 시절부터 이미지 속 글자는 거의 항상 알아볼 수 없는 장식성 기호로 깨지는 게 업계의 고질적 실패 모드였는데, Nano Banana Pro는 긴 문장과 다국어 레이아웃까지 읽히는 글자로 안정 출력하는 첫 모델로 평가된다. 네이티브 1K 출력에 2K·4K 업스케일이 내장됐고, 4K 이미지 1장당 0.24달러로 과금된다. 원조 Gemini 2.5 Flash Image(2025년 8월 출시, 2주 만에 5억 장 생성·신규 2,300만 명 유입의 바이럴)는 10월 2일 일부 플랫폼에서 은퇴 예정이라 Pro/3.1 계열로의 이전이 권장된다.

이미지 속 텍스트가 '깨지지 않게' 나온다는 것은 포스터·배너·상세페이지·다국어 목업 같은 실전 산출물에서 디자이너 후작업을 사실상 없애준다는 뜻으로, 한국 커머스·콘텐츠 제작자에게 직접적인 비용 절감 포인트다. 다만 2.5 Flash Image가 1년도 안 돼 은퇴 수순에 든 것처럼 구글 이미지 모델의 교체 주기가 매우 짧으므로, 프로덕션에 박을 땐 모델 ID를 추상화 계층 뒤에 두고 마이그레이션을 전제로 설계해야 한다.

Google DeepMind / blog.google원문 ↗

News생성 이미지·영상·음성중급·2주 전

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

Microsoft AI가 6월 2일 자체 개발한 MAI 모델 7종을 한꺼번에 공개했다. 추론 모델 MAI-Thinking-1(체급 내 SWE·수학 강세), GitHub Copilot·VS Code에 통합되는 50억 파라미터 코딩 모델 MAI-Code-1-Flash, 이미지 생성·편집 모델 MAI-Image-2.5와 초경량 변형 Flash, 43개 언어를 경쟁 모델 대비 5배 빠르게 전사하는 MAI-Transcribe-1.5, 15개 언어 음성 합성·보이스 적응 MAI-Voice-2와 저비용 Flash 변형이 포함된다. Microsoft는 추론 모델을 '처음부터(from scratch)' 학습하며 '다른 랩에서 증류(distill)하지 않는다'고 명시했고, 데이터셋이 '깨끗하고 추적 가능하며 엔터프라이즈 등급'이라고 강조했다. 차세대 GB200 클러스터가 가동 중이라고 밝혔다.

OpenAI 의존을 줄이려는 Microsoft의 수직계열화가 텍스트를 넘어 음성·전사·이미지 생성미디어 전 영역으로 확장됐다는 점이 핵심이다. '증류하지 않는다'는 선언은 출처가 깨끗한 학습 데이터를 차별점으로 내세우는 엔터프라이즈 신뢰 전략이다. 한국 개발자에게는 Copilot·Azure 스택에 묶인 음성/전사/이미지 워크로드의 모델 선택지가 늘어나는 동시에, 단일 벤더 종속이 더 깊어지는 양면성을 점검해야 한다.

Microsoft AI원문 ↗

News생성 이미지·영상·음성중급·2026년 4월 21일

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

OpenAI가 2026년 4월 21일 gpt-image-2(ChatGPT Images 2.0)를 공개했다. 가장 큰 변화는 O-시리즈의 추론 능력을 이미지 생성에 통합한 점으로, 모델이 곧장 픽셀을 뱉는 대신 이미지의 구조와 레이아웃을 먼저 계획·추론한 뒤 생성한다. 그동안 디퓨전 계열의 고질병이던 이미지 내 텍스트 렌더링이 약 99% 정확도로 끌어올려졌고, 라틴 문자뿐 아니라 한국어·일본어·아랍어·힌디·벵골어 등 십수 개 문자 체계를 안정적으로 그린다. 최대 4K 해상도를 지원해 포스터·목업·UI 시안 같은 실무 산출물에 바로 투입할 수 있는 수준이다. ChatGPT와 Codex 사용자에게는 4월 22일부터 제공됐고, 개발자용 API는 5월 초 열렸다. API 가격은 입력 100만 토큰당 8달러, 출력 100만 토큰당 30달러로 책정됐다. 무료 사용자는 1월부터 이미지·영상 생성에서 제외돼 Plus/Pro 전용 흐름으로 정리됐다.

이미지 모델에 '먼저 생각하고 그린다'는 추론 단계가 들어간 것은 텍스트 LLM이 걸어온 chain-of-thought 진화를 이미지가 그대로 밟는 신호다. 한국어 텍스트 렌더링이 사실상 해결됐다는 점은 국내 마케팅·커머스·앱 시안 제작에서 사람 손 디자인을 대체할 임계점을 넘었다는 의미이며, 빌더라면 API 토큰 기반 과금 구조를 고려해 배치 생성 비용을 미리 설계해야 한다.

getimg.ai / OpenAI원문 ↗

News생성 이미지·영상·음성중급·2026년 3월 28일

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

AI 생성물의 출처·진위 표시가 권고에서 규제로 넘어가고 있다. 업계는 두 겹 표준으로 수렴했다. 하나는 C2PA 콘텐츠 자격증명(Content Credentials)으로, 어떤 기기·모델이 만들었는지와 적용된 편집 이력을 서명된 JSON-LD 매니페스트에 기록한다. C2PA 2.1은 2025년 비준돼 ISO/IEC 22144 표준이 됐다. 다른 하나는 SynthID 같은 비가시 워터마크다. 이 스택은 Adobe·Microsoft·OpenAI·Meta·Google과 Leica·Sony·Nikon·Canon 카메라 펌웨어가 지원한다. 규제 측면에서 캘리포니아 SB 942는 2026년 1월 1일 발효됐고, EU AI Act 제50조 집행은 2026년 8월 시작된다. 한국 개발자가 이미지·영상·음성 생성 기능을 서비스에 넣는다면, EU·미국 시장 대상 제품에서는 메타데이터 매니페스트 부착과 워터마킹을 설계 단계부터 고려해야 컴플라이언스 리스크를 피할 수 있다.

C2PA가 ISO 표준이 되고 EU·캘리포니아 규제가 발효되면서, 생성 기능을 넣는 제품은 출처표시를 설계 단계부터 반영해야 한다

Editors Weblog원문 ↗

Google Veo 3.1, 네이티브 오디오 영상 생성으로 Vids·Vertex AI 워크플로 통합

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글