[论文解读] Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis
引入一个用于 Tacotron 的多参考编码器,结合 intercross 训练以解耦、迁移,并独立控制多种语音风格类别。通过独立子编码器,展示对说话人、情感、韵律等风格的独立控制。
Speech style control and transfer techniques aim to enrich the diversity and expressiveness of synthesized speech. Existing approaches model all speech styles into one representation, lacking the ability to control a specific speech feature independently. To address this issue, we introduce a novel multi-reference structure to Tacotron and propose intercross training approach, which together ensure that each sub-encoder of the multi-reference encoder independently disentangles and controls a specific style. Experimental results show that our model is able to control and transfer desired speech styles individually.
研究动机与目标
- 通过使对多种语音风格类别的独立控制来激发表达性 TTS。
- 提出一个多参考编码器结构,以单独建模不同风格类别。
- 引入 intercross training 以强制风格编码之间的解耦。
- 增加辅助任务以稳定训练并促进风格嵌入之间的正交性。
- 在单参考和多参考设置中通过实验展示风格解耦、迁移与控制。
提出的方法
- 将 GST-Tacotron 扩展为包含 N 个 GST 子编码器的多参考编码器。
- 每个子编码器使用参考编码器和多头注意力来生成风格嵌入。
- 通过确保每个子编码器表示特定风格类别来实现解耦(公式 1)。
- 应用 intercross training(IT)在重构过程中交换后验(公式 2-5)。
- 纳入可选的辅助任务:风格分类损失和正交性损失,以促进独立风格空间(公式 7)。
- 提供推理过程,用于风格解耦、风格嵌入之间的迁移和插值(公式 8-9)。
实验结果
研究问题
- RQ1多参考编码器是否能将多种语音风格类别解耦为独立表示?
- RQ2互交训练是否能够实现鲁棒的风格解耦、迁移和独立控制各风格?
- RQ3是否可以对风格嵌入进行插值,以平滑控制诸如说话人和韵律等属性?
- RQ4是否可在多参考方法下使用少量样本甚至一示例实现新说话人的风格迁移?
- RQ5辅助任务(分类与正交性)是否有助于稳定训练并改善解耦?
主要发现
- 多参考模型产生的风格嵌入按预期风格类别聚簇,表明解耦有效。
- 互交训练实现非并行的风格迁移,文本长度与自然度保持,优于单参考基线的迁移质量。
- 风格嵌入支持平滑线性插值,使说话人和韵律特征实现独立控制。
- 来自不同子编码器的嵌入按各自风格类别聚类,展示多参考设置中的独立控制。
- 该方法支持少-shot 和一-shot 的说话人转换,微调可在新说话人上达到较高接受率。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。