VALL-E 是一种用于文本到语音合成(TTS)的语言建模方法,利用神经编解码器模型的离散代码来训练神经编解码器语言模型。相比于传统的连续信号回归方法,VALL-E 将TTS视为条件语言建模任务,在预训练阶段使用60K小时的英语语音数据集。该系统可以生成高质量的个性化语音,只需录制未见过的说话者3秒钟的注册录音作为声音提示,具有良好的上下文学习能力。
实验结果表明,VALL-E 的语音自然度和说话人相似度明显优于最先进的零样本TTS系统。此外,VALL-E 能够在合成中保留说话者的情绪和声音提示的听觉环境,进一步提高了语音合成的质量与可操作性。VALL-E的研究成果对于个性化语音合成、智能客服、智能语音助手等领域具有重要的应用价值。