
Pixso AI
Pixso AI是什么 Pixso AI是国产的高效AI设计...
现有的自回归大规模文本转语音(TTS)模型在语音自然性方面具有优势,但其逐个代币生成机制使得精确控制合成语音的时长变得困难。这在需要严格视听同步的应用中成为一个重要限制,比如视频配音。
本文介绍了IndexTTS2,提出了一种新颖、通用且适合自回归模型的语音时长控制方法。
该方法支持两种生成模式:一种明确指定生成词数以精确控制语音时长;另一种以自回归方式自由生成语音,无需指定词数,同时忠实再现输入提示词的韵律特征。
此外,IndexTTS2实现了情感表达与说话者身份的解开,实现对音色和情感的独立控制。在零点设置下,模型可以准确地重建目标音色(来自音色提示),同时完美重现指定的情感基调(风格提示)。
为提升高度情绪表达的语音清晰度,我们引入了GPT潜在表征,并设计了一种新的三阶段训练范式,以提升生成语音的稳定性。此外,为了降低情绪控制的门槛,我们通过微调Qwen3,基于文本描述设计了软指令机制,有效引导具有所需情感取向的语音生成。
最后,多数据集的实验结果显示,IndexTTS2在词误率、说话者相似度和情感真实度方面优于最先进的零样品TTS模型。音频样本可在以下网站获取:IndexTTS2演示页面。








