QUICK REVIEW

[论文解读] Singing voice synthesis based on convolutional neural networks

Kazuhiro Nakamura, Kei Hashimoto|arXiv (Cornell University)|Apr 15, 2019

Music and Audio Processing参考文献 24被引用 27

一句话总结

本文提出了一种基于卷积神经网络（CNN）的音高语音合成声学模型，通过将输入乐谱特征按分段时间单元处理，捕捉歌唱语音中的长期依赖关系，从而无需使用传统的参数生成算法。与前馈DNN基线模型相比，该方法显著提升了合成歌唱语音的自然度，当使用WaveNet声码器时，主观MOS评分最高提升0.6分。

ABSTRACT

The present paper describes a singing voice synthesis based on convolutional neural networks (CNNs). Singing voice synthesis systems based on deep neural networks (DNNs) are currently being proposed and are improving the naturalness of synthesized singing voices. In these systems, the relationship between musical score feature sequences and acoustic feature sequences extracted from singing voices is modeled by DNNs. Then, an acoustic feature sequence of an arbitrary musical score is output in units of frames by the trained DNNs, and a natural trajectory of a singing voice is obtained by using a parameter generation algorithm. As singing voices contain rich expression, a powerful technique to model them accurately is required. In the proposed technique, long-term dependencies of singing voices are modeled by CNNs. An acoustic feature sequence is generated in units of segments that consist of long-term frames, and a natural trajectory is obtained without the parameter generation algorithm. Experimental results in a subjective listening test show that the proposed architecture can synthesize natural sounding singing voices.

研究动机与目标

通过建模表达性歌唱中的长期时间依赖关系，提升合成歌唱语音的自然度。
用基于CNN的架构替代传统的语音参数生成算法，直接输出平滑的声学特征轨迹。
通过避免声学模型中的循环结构，实现快速且可并行训练与推理。
评估CNN在捕捉如震音和节奏变化等表达性歌唱动态方面的有效性。
在使用MLSA和WaveNet声码器的情况下，将所提出的CNN基系统与前馈DNN基线进行比较。

提出的方法

系统将乐谱特征（如音素、音符音高、持续时间等）作为输入，以2000帧为单位分段生成声学特征（梅尔倒谱系数、基频、非周期性、震音等）。
采用双分支结构：第一部分模仿传统的前馈DNN，第二部分则使用包含9个残差块的深层残差CNN以建模长期依赖关系。
CNN使用空洞卷积扩展感受野，从而在不使用循环结构的情况下建模长程时间模式。
声学特征在分段边界处通过100帧的交叉淡化处理，以确保过渡平滑。
模型直接输出原始声学特征，供声码器（MLSA或WaveNet）直接使用，无需通过MLPG进行动态特征平滑。
输入和输出特征均进行归一化处理，时间延迟和震音参数通过正弦函数显式建模。

实验结果

研究问题

RQ1基于CNN的声学模型是否能在不依赖循环结构的情况下有效建模表达性歌唱语音中的长期依赖关系？
RQ2是否消除对独立参数生成算法（如MLPG）的需求可提升合成歌唱语音的自然度？
RQ3在感知质量方面，所提出的CNN基系统相较于传统前馈DNN基线模型表现如何？
RQ4在所提出的框架中，使用WaveNet声码器相较于MLSA声码器在多大程度上提升了合成歌唱语音的自然度？
RQ5所提出的架构是否能在无需显式动态特征约束的情况下，保持分段间的平滑自然轨迹？

主要发现

CNN基系统（CNN+W）在主观听音测试中获得平均MOS评分为4.12，显著优于前馈DNN基线（FFNN+W）的3.52分。
当使用WaveNet声码器时，与FFNN基线相比，所提出的CNN模型在MOS评估中自然度提升0.6分。
使用WaveNet声码器的CNN基系统获得MOS评分为4.12，表明其感知质量接近自然歌唱语音。
在基线系统和所提出的系统中，使用WaveNet声码器均一致地提升了MOS评分，优于MLSA声码器。
所提出的方法成功消除了对MLPG参数生成算法的需求，同时保持或提升了轨迹平滑度与自然度。
采用空洞卷积的残差CNN架构有效捕捉了歌唱语音序列中的长期依赖关系，从而实现了更具表现力和真实感的合成。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。