index-tts

3个月前发布 0 0

IndexTTS2：情感表达与时长控制的自动回归零样本文本转语音的突破摘要现有的自回归大规模文本转语音（TTS）模型在语音自然性方面具有优势，但其逐个代币生成机制使得精确控制合成语音的时长变得困难。这在需要严格视听同步的应用中成为一个重要限制，比如视频配音。本文介绍了IndexTTS2，提出了一种新颖、通用且适合自回归模型的语音时长...

收录时间：

2026-04-27

打开网站手机查看

IndexTTS2：情感表达与时长控制的自动回归零样本文本转语音的突破

摘要

现有的自回归大规模文本转语音（TTS）模型在语音自然性方面具有优势，但其逐个代币生成机制使得精确控制合成语音的时长变得困难。这在需要严格视听同步的应用中成为一个重要限制，比如视频配音。

本文介绍了IndexTTS2，提出了一种新颖、通用且适合自回归模型的语音时长控制方法。

该方法支持两种生成模式：一种明确指定生成词数以精确控制语音时长;另一种以自回归方式自由生成语音，无需指定词数，同时忠实再现输入提示词的韵律特征。

此外，IndexTTS2实现了情感表达与说话者身份的解开，实现对音色和情感的独立控制。在零点设置下，模型可以准确地重建目标音色（来自音色提示），同时完美重现指定的情感基调（风格提示）。

为提升高度情绪表达的语音清晰度，我们引入了GPT潜在表征，并设计了一种新的三阶段训练范式，以提升生成语音的稳定性。此外，为了降低情绪控制的门槛，我们通过微调Qwen3，基于文本描述设计了软指令机制，有效引导具有所需情感取向的语音生成。

最后，多数据集的实验结果显示，IndexTTS2在词误率、说话者相似度和情感真实度方面优于最先进的零样品TTS模型。音频样本可在以下网站获取：IndexTTS2演示页面。

385c84af4fa88c84b800359efa37323c

index-tts

IndexTTS2：情感表达与时长控制的自动回归零样本文本转语音的突破

摘要

相关导航

WinkStudio

堆友AI反应堆

ElevenLabs

Shannon Keygraph 的 AI 渗透测试器

易可图

Kira

Soundraw

Cutout.Pro