ElevenLabs v3, 오디오 태그로 AI 성우를 연출하는 시대 열어
Eleven v3 — Most Expressive AI Voice Model
ElevenLabs의 Eleven v3는 회사에서 가장 표현력이 풍부한 음성 모델로, 텍스트 안에 [whispers], [laughs], [excited] 같은 인라인 오디오 태그를 넣어 감정과 톤을 직접 연출할 수 있다. 70개 이상 언어를 지원하며 오디오북, 영상 내레이션, 드라마틱한 보이스오버처럼 긴 호흡의 콘텐츠에 적합하다. 함께 나온 Voice Design v3는 나이·억양·톤·음질을 텍스트로 묘사하면 수 초 만에 서로 다른 후보 음성 3종을 생성해주며, 사실적 음성용과 게임 NPC·판타지 캐릭터용 두 모드를 제공한다. 회사는 2026년 2월 5억 달러 시리즈 D를 마감해 110억 달러 가치로 평가받았고, TTS 스타트업에서 음성 에이전트·음악·더빙·실시간 전사를 아우르는 풀스택 오디오 레이어로 확장했다. 한국 개발자에게는 다국어 내레이션과 캐릭터 보이스 제작을 코드 한 줄의 태그로 제어할 수 있다는 실질적 이점이 있다.
인라인 오디오 태그로 감정·연기를 프롬프트로 지시할 수 있어, 성우 섭외 없이 다국어 내레이션과 캐릭터 음성을 코드로 제어한다
원문 출처
ElevenLabs