index-tts

10小时前发布 0 0

IndexTTS2:情感表达与时长控制的自动回归零样本文本转语音的突破 摘要 现有的自回归大规模文本转语音(TTS)模型在语音自然性方面具有优势,但其逐个代币生成机制使得精确控制合成语音的时长变得困难。这在需要严格视听同步的应用中成为一个重要限制,比如视频配音。 本文介绍了IndexTTS2,提出了一种新颖、通用且适合自回归模型的语音时长...

收录时间:
2026-04-27
广告也精彩
正文上方广告位
da55ca23757d2905c5c5b0674e48524d

IndexTTS2:情感表达与时长控制的自动回归零样本文本转语音的突破

摘要

现有的自回归大规模文本转语音(TTS)模型在语音自然性方面具有优势,但其逐个代币生成机制使得精确控制合成语音的时长变得困难。这在需要严格视听同步的应用中成为一个重要限制,比如视频配音。

本文介绍了IndexTTS2,提出了一种新颖、通用且适合自回归模型的语音时长控制方法。

该方法支持两种生成模式:一种明确指定生成词数以精确控制语音时长;另一种以自回归方式自由生成语音,无需指定词数,同时忠实再现输入提示词的韵律特征。

此外,IndexTTS2实现了情感表达与说话者身份的解开,实现对音色和情感的独立控制。在零点设置下,模型可以准确地重建目标音色(来自音色提示),同时完美重现指定的情感基调(风格提示)。

为提升高度情绪表达的语音清晰度,我们引入了GPT潜在表征,并设计了一种新的三阶段训练范式,以提升生成语音的稳定性。此外,为了降低情绪控制的门槛,我们通过微调Qwen3,基于文本描述设计了软指令机制,有效引导具有所需情感取向的语音生成。

最后,多数据集的实验结果显示,IndexTTS2在词误率、说话者相似度和情感真实度方面优于最先进的零样品TTS模型。音频样本可在以下网站获取:IndexTTS2演示页面。

385c84af4fa88c84b800359efa37323c

正文底部广告位

相关导航