News중급원문 2026년 3월 14일

ElevenLabs Eleven v3 GA, Audio Tags로 감정 연출하는 음성 70개 언어 지원

ElevenLabs Eleven v3 reaches general availability

ElevenLabs가 2026년 3월 14일 Eleven v3를 정식 출시(GA)했다(2월 알파 후 GA). 가장 큰 변화는 Audio Tags로, 대괄호로 감싼 지시어를 모델이 해석해 음성의 표현을 직접 연출한다. [excited], [whispers], [sighs] 같은 감정·발화 톤부터 [gunshot], [clapping], [explosion] 같은 사운드 이벤트까지 텍스트 안에서 디렉팅할 수 있어, 사실상 'AI 성우를 연출'하는 워크플로가 가능해졌다. 그동안 ElevenLabs의 최대 약점으로 지적되던 감정 표현 범위가 이 업데이트로 따라잡혔다는 평가다. 복잡한 텍스트 처리 오류가 68% 줄었고 70개 이상 언어를 지원한다. 다만 v3는 고충실도 코덱과 큰 모델을 쓰는 만큼 실시간 처리는 불가하며, 실시간·대화형 용도에는 여전히 Flash v2.5를 권장한다. 6월 말까지 80% 할인 프로모션이 진행됐다.

Audio Tags는 음성 생성이 '읽어주기'에서 '연기 연출'로 넘어가는 변곡점으로, 오디오북·내레이션·캐릭터 보이스·광고 더빙에서 후작업 디렉팅 비용을 크게 줄인다. 다만 v3가 실시간 불가라는 점은 중요한 설계 제약으로, 음성 에이전트나 통화형 봇을 만든다면 표현형(v3)과 저지연(Flash v2.5) 모델을 용도별로 분리 적용하는 아키텍처가 필수다.

원문 출처

ElevenLabs / Inworld

원문 보기 ↗

← Today

생성 이미지·영상·음성 더 보기

생성 이미지·영상·음성 관련 브리핑

News생성 이미지·영상·음성중급·2주 전

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

구글의 이미지 라인업 별칭 '나노 바나나'가 2026년 상반기에 두 단계 도약했다. 2월에 Nano Banana 2(Gemini 3.1 Flash Image)가 'Pro 품질을 Flash 속도로'라는 슬로건과 함께 Gemini 앱에 풀렸고, 6월에는 Gemini 3 Pro 기반의 Nano Banana Pro(Gemini 3 Pro Image)가 정식 출시(GA)됐다. Pro의 핵심 차별점은 텍스트 렌더링이다. Stable Diffusion 시절부터 이미지 속 글자는 거의 항상 알아볼 수 없는 장식성 기호로 깨지는 게 업계의 고질적 실패 모드였는데, Nano Banana Pro는 긴 문장과 다국어 레이아웃까지 읽히는 글자로 안정 출력하는 첫 모델로 평가된다. 네이티브 1K 출력에 2K·4K 업스케일이 내장됐고, 4K 이미지 1장당 0.24달러로 과금된다. 원조 Gemini 2.5 Flash Image(2025년 8월 출시, 2주 만에 5억 장 생성·신규 2,300만 명 유입의 바이럴)는 10월 2일 일부 플랫폼에서 은퇴 예정이라 Pro/3.1 계열로의 이전이 권장된다.

이미지 속 텍스트가 '깨지지 않게' 나온다는 것은 포스터·배너·상세페이지·다국어 목업 같은 실전 산출물에서 디자이너 후작업을 사실상 없애준다는 뜻으로, 한국 커머스·콘텐츠 제작자에게 직접적인 비용 절감 포인트다. 다만 2.5 Flash Image가 1년도 안 돼 은퇴 수순에 든 것처럼 구글 이미지 모델의 교체 주기가 매우 짧으므로, 프로덕션에 박을 땐 모델 ID를 추상화 계층 뒤에 두고 마이그레이션을 전제로 설계해야 한다.

Google DeepMind / blog.google원문 ↗

News생성 이미지·영상·음성중급·2주 전

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

Microsoft AI가 6월 2일 자체 개발한 MAI 모델 7종을 한꺼번에 공개했다. 추론 모델 MAI-Thinking-1(체급 내 SWE·수학 강세), GitHub Copilot·VS Code에 통합되는 50억 파라미터 코딩 모델 MAI-Code-1-Flash, 이미지 생성·편집 모델 MAI-Image-2.5와 초경량 변형 Flash, 43개 언어를 경쟁 모델 대비 5배 빠르게 전사하는 MAI-Transcribe-1.5, 15개 언어 음성 합성·보이스 적응 MAI-Voice-2와 저비용 Flash 변형이 포함된다. Microsoft는 추론 모델을 '처음부터(from scratch)' 학습하며 '다른 랩에서 증류(distill)하지 않는다'고 명시했고, 데이터셋이 '깨끗하고 추적 가능하며 엔터프라이즈 등급'이라고 강조했다. 차세대 GB200 클러스터가 가동 중이라고 밝혔다.

OpenAI 의존을 줄이려는 Microsoft의 수직계열화가 텍스트를 넘어 음성·전사·이미지 생성미디어 전 영역으로 확장됐다는 점이 핵심이다. '증류하지 않는다'는 선언은 출처가 깨끗한 학습 데이터를 차별점으로 내세우는 엔터프라이즈 신뢰 전략이다. 한국 개발자에게는 Copilot·Azure 스택에 묶인 음성/전사/이미지 워크로드의 모델 선택지가 늘어나는 동시에, 단일 벤더 종속이 더 깊어지는 양면성을 점검해야 한다.

Microsoft AI원문 ↗

News생성 이미지·영상·음성중급·2026년 4월 21일

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

OpenAI가 2026년 4월 21일 gpt-image-2(ChatGPT Images 2.0)를 공개했다. 가장 큰 변화는 O-시리즈의 추론 능력을 이미지 생성에 통합한 점으로, 모델이 곧장 픽셀을 뱉는 대신 이미지의 구조와 레이아웃을 먼저 계획·추론한 뒤 생성한다. 그동안 디퓨전 계열의 고질병이던 이미지 내 텍스트 렌더링이 약 99% 정확도로 끌어올려졌고, 라틴 문자뿐 아니라 한국어·일본어·아랍어·힌디·벵골어 등 십수 개 문자 체계를 안정적으로 그린다. 최대 4K 해상도를 지원해 포스터·목업·UI 시안 같은 실무 산출물에 바로 투입할 수 있는 수준이다. ChatGPT와 Codex 사용자에게는 4월 22일부터 제공됐고, 개발자용 API는 5월 초 열렸다. API 가격은 입력 100만 토큰당 8달러, 출력 100만 토큰당 30달러로 책정됐다. 무료 사용자는 1월부터 이미지·영상 생성에서 제외돼 Plus/Pro 전용 흐름으로 정리됐다.

이미지 모델에 '먼저 생각하고 그린다'는 추론 단계가 들어간 것은 텍스트 LLM이 걸어온 chain-of-thought 진화를 이미지가 그대로 밟는 신호다. 한국어 텍스트 렌더링이 사실상 해결됐다는 점은 국내 마케팅·커머스·앱 시안 제작에서 사람 손 디자인을 대체할 임계점을 넘었다는 의미이며, 빌더라면 API 토큰 기반 과금 구조를 고려해 배치 생성 비용을 미리 설계해야 한다.

getimg.ai / OpenAI원문 ↗

News생성 이미지·영상·음성중급·2026년 3월 28일

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

AI 생성물의 출처·진위 표시가 권고에서 규제로 넘어가고 있다. 업계는 두 겹 표준으로 수렴했다. 하나는 C2PA 콘텐츠 자격증명(Content Credentials)으로, 어떤 기기·모델이 만들었는지와 적용된 편집 이력을 서명된 JSON-LD 매니페스트에 기록한다. C2PA 2.1은 2025년 비준돼 ISO/IEC 22144 표준이 됐다. 다른 하나는 SynthID 같은 비가시 워터마크다. 이 스택은 Adobe·Microsoft·OpenAI·Meta·Google과 Leica·Sony·Nikon·Canon 카메라 펌웨어가 지원한다. 규제 측면에서 캘리포니아 SB 942는 2026년 1월 1일 발효됐고, EU AI Act 제50조 집행은 2026년 8월 시작된다. 한국 개발자가 이미지·영상·음성 생성 기능을 서비스에 넣는다면, EU·미국 시장 대상 제품에서는 메타데이터 매니페스트 부착과 워터마킹을 설계 단계부터 고려해야 컴플라이언스 리스크를 피할 수 있다.

C2PA가 ISO 표준이 되고 EU·캘리포니아 규제가 발효되면서, 생성 기능을 넣는 제품은 출처표시를 설계 단계부터 반영해야 한다

Editors Weblog원문 ↗

ElevenLabs Eleven v3 GA, Audio Tags로 감정 연출하는 음성 70개 언어 지원

Nano Banana Pro(Gemini 3 Pro Image) GA, 이미지 속 다국어 텍스트 렌더링 신뢰도 확보

Microsoft, 음성·전사·이미지 생성까지 자체 학습한 MAI 7종 일괄 공개

OpenAI, 추론 탑재한 첫 에이전트형 이미지 모델 gpt-image-2 출시

AI 콘텐츠 출처표시 의무화, C2PA·SynthID 2단 표준과 EU AI Act 시행

이 브리핑에 대한 Q&A

매주 화요일, 한 주의 AI를 정리해 드립니다

댓글