[论文解读] Speech Synthesis with Neural Networks
本论文提出了一种基于神经网络的文本到语音系统,采用时延神经网络(TDNN)进行音素到声学参数的映射,并使用独立的神经网络进行时长预测,实现了在低于100 KB内存占用下的自然语音输出,显著低于拼接合成系统的内存需求,且在语音可接受性方面优于商用系统,尽管单词可懂度得分中等。
Text-to-speech conversion has traditionally been performed either by concatenating short samples of speech or by using rule-based systems to convert a phonetic representation of speech into an acoustic representation, which is then converted into speech. This paper describes a system that uses a time-delay neural network (TDNN) to perform this phonetic-to-acoustic mapping, with another neural network to control the timing of the generated speech. The neural network system requires less memory than a concatenation system, and performed well in tests comparing it to commercial systems using other technologies.
研究动机与目标
- 开发一种低内存、高质量的神经网络文本到语音系统,以克服传统拼接式和规则式合成的局限性。
- 与通常需要数兆字节双音素数据的拼接式系统相比,降低存储需求。
- 通过在真实语音数据上进行训练,而非依赖手工规则,提升语音自然度。
- 评估系统在便携式平台上的语音质量、可懂度和实时可行性。
提出的方法
- 使用上下文相关特征,通过时延神经网络(TDNN)将音素表示映射为声学参数。
- 使用独立的神经网络基于音素和句法上下文预测音素时长。
- 系统使用来自单一男声说话人的640句话的音素和语调标注语音数据库进行训练。
- 神经网络采用反向传播训练,结合顺序和随机数据呈现的混合训练模式。
- 最终的网络结构融合了TDNN、循环和模块化设计原则,优化了紧凑性与性能。
- 系统使用C语言实现,并移植到基于PowerPC硬件的平台,以实现实时合成。
实验结果
研究问题
- RQ1基于神经网络的TTS系统能否在语音自然度上超越规则式或拼接式系统?
- RQ2与传统拼接式系统相比,神经网络能否降低语音合成的内存需求?
- RQ3在单一说话人数据上训练的神经网络能否在多样化的语句中产生可接受的语音质量?
- RQ4与商用系统相比,神经网络TTS系统在可懂度和可接受性方面的表现如何?
- RQ5该系统能否在低功耗便携硬件上实现实时运行?
主要发现
- 神经网络系统在语音可接受性方面获得4.3分(满分5分),显著优于商用系统如DECTalk(3.5分)和PlainTalk(2.3分)。
- 单词级可懂度为55%,低于部分商用系统,可能由于缺乏单字训练数据。
- 训练后的神经网络权重仅需少于100 KB的8位量化存储,相比拼接式系统所需的数兆字节有显著改进。
- 在Power Macintosh 8500/120上,利用PowerPC芯片的快速乘加指令,成功实现了实时合成。
- 频谱图显示,具有自然时长的合成语音在质量上与自然语音高度接近。
- 独立测试确认了系统在语音自然度方面的优越性,但需在单词可懂度和语调变化方面进一步改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。