QUICK REVIEW

[论文解读] MelGAN-VC: Voice Conversion and Audio Style Transfer on arbitrarily long samples using Spectrograms

Marco Pasini|arXiv (Cornell University)|Oct 8, 2019

Speech Recognition and Synthesis参考文献 34被引用 31

一句话总结

MelGAN-VC 提出了一种非平行、基于生成对抗网络（GAN）的语音转换与音频风格迁移方法，通过频谱图转换生成高保真、任意长度的音频样本。该方法利用带有 TraVeL 损失的孪生网络与频谱图拼接技术，保留语言内容并确保拼接无缝，实现了在干净语音、噪声语音以及音乐流派迁移任务中的逼真效果。

ABSTRACT

Traditional voice conversion methods rely on parallel recordings of multiple speakers pronouncing the same sentences. For real-world applications however, parallel data is rarely available. We propose MelGAN-VC, a voice conversion method that relies on non-parallel speech data and is able to convert audio signals of arbitrary length from a source voice to a target voice. We firstly compute spectrograms from waveform data and then perform a domain translation using a Generative Adversarial Network (GAN) architecture. An additional siamese network helps preserving speech information in the translation process, without sacrificing the ability to flexibly model the style of the target speaker. We test our framework with a dataset of clean speech recordings, as well as with a collection of noisy real-world speech examples. Finally, we apply the same method to perform music style transfer, translating arbitrarily long music samples from one genre to another, and showing that our framework is flexible and can be used for audio manipulation applications different from voice conversion.

研究动机与目标

开发一种无需并行训练数据的语音转换方法，以应对现实应用中并行数据往往不可用的问题。
实现对任意长度音频样本的端到端转换，突破固定长度 GAN 模型的限制。
通过孪生网络与 TraVeL 损失实现语音转换中的语言内容保留，且不依赖循环一致性约束。
将框架扩展至语音转换之外的一般音频风格迁移任务，如音乐流派迁移。
在噪声语音与真实世界语音数据上展示鲁棒性，并通过 Griffin-Lim 逆变换实现高质量音频重建。

提出的方法

该方法采用基于 U-Net 的生成器，并在生成器与判别器中均使用谱归一化以提升训练稳定性。
将频谱图沿时间轴切分为重叠的块，经由生成器处理后拼接成连续输出，避免边界处的不连续性。
使用孪生网络处理源频谱图与生成频谱图，通过潜在空间中的向量运算强制内容保留，利用 TraVeL 损失实现内容保护。
训练过程中引入身份损失，以进一步强化语言内容的保留，尤其在语音转换任务中效果显著。
模型使用对数幅度缩放的梅尔频谱图，归一化至 -1 到 1 之间，并通过 Griffin-Lim 算法重建波形。
训练采用 Adam 优化器，为生成器与判别器分别设置学习率，并在每次生成器更新前进行多次判别器更新。

实验结果

研究问题

RQ1基于 GAN 的语音转换系统是否能在无需并行训练数据的情况下实现高保真效果？
RQ2在不依赖循环一致性或像素级重建的前提下，如何实现语音转换中的内容保留？
RQ3通过频谱图块的拼接与连接，模型能否实现对任意长度音频样本的有效泛化？
RQ4该框架是否能支持语音转换之外的音频风格迁移任务，如音乐流派迁移？
RQ5与干净的并行数据集相比，该模型在噪声语音与真实世界语音数据上的表现如何？

主要发现

MelGAN-VC 在 ARCTIC 数据集上实现了高度逼真的语音转换效果，无论同性别还是跨性别设置下，语言可懂度均得到良好保留。
该模型成功将唐纳德·特朗普 YouTube 演讲中的噪声真实语音样本进行转换，生成结果逼真，但因输入噪声导致可懂度略有下降。
结合孪生网络的 TraVeL 损失能有效实现内容保留，且无需循环一致性约束，支持灵活的域间转换。
身份损失可提升语音转换中的内容保留效果，但在音乐流派迁移任务中并非必需，此时可省略以降低计算开销。
该框架可泛化至使用 GTZAN 数据集的音乐风格迁移任务，成功实现摇滚、爵士与古典等流派之间的转换。
通过 Griffin-Lim 逆变换生成的音频样本因模型使用高维频谱图而保持了高感知质量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。