Inflect-Nano-v1, 4.63M 파라미터의 초소형 TTS 모델 출시
I released Inflect-Nano, an ultra-extreme tiny 4.63m parameter TTS model.
Inflect-Nano-v1은 4.63M의 총 추론 파라미터를 가진 초소형 TTS 모델로, 3.46M의 음향 모델과 1.17M의 보코더를 포함한다. 이 모델은 24kHz 오디오를 지원하며, 영어 단일 남성 음성으로 작동한다. PyTorch 추론 스크립트를 사용하여 로컬에서 실행 가능하며, Kokoro보다 약 17배, Chatterbox보다 약 108배, Fish Audio S2 Pro보다 거의 1000배 작다. 품질은 제한적이며 로봇 같은 음성이나 어려운 텍스트에서의 문제점이 있다.
이 모델은 작은 파라미터 수로도 로컬 음성 합성 및 오프라인 어시스턴트 개발에 유용할 수 있다.
원문 출처
r/LocalLLaMA