ElevenLabs Eleven v3 GA, Audio Tags로 감정 연출하는 음성 70개 언어 지원
ElevenLabs Eleven v3 reaches general availability
ElevenLabs가 2026년 3월 14일 Eleven v3를 정식 출시(GA)했다(2월 알파 후 GA). 가장 큰 변화는 Audio Tags로, 대괄호로 감싼 지시어를 모델이 해석해 음성의 표현을 직접 연출한다. [excited], [whispers], [sighs] 같은 감정·발화 톤부터 [gunshot], [clapping], [explosion] 같은 사운드 이벤트까지 텍스트 안에서 디렉팅할 수 있어, 사실상 'AI 성우를 연출'하는 워크플로가 가능해졌다. 그동안 ElevenLabs의 최대 약점으로 지적되던 감정 표현 범위가 이 업데이트로 따라잡혔다는 평가다. 복잡한 텍스트 처리 오류가 68% 줄었고 70개 이상 언어를 지원한다. 다만 v3는 고충실도 코덱과 큰 모델을 쓰는 만큼 실시간 처리는 불가하며, 실시간·대화형 용도에는 여전히 Flash v2.5를 권장한다. 6월 말까지 80% 할인 프로모션이 진행됐다.
Audio Tags는 음성 생성이 '읽어주기'에서 '연기 연출'로 넘어가는 변곡점으로, 오디오북·내레이션·캐릭터 보이스·광고 더빙에서 후작업 디렉팅 비용을 크게 줄인다. 다만 v3가 실시간 불가라는 점은 중요한 설계 제약으로, 음성 에이전트나 통화형 봇을 만든다면 표현형(v3)과 저지연(Flash v2.5) 모델을 용도별로 분리 적용하는 아키텍처가 필수다.
원문 출처
ElevenLabs / Inworld