[论文解读] Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion
Blow 是一个带有超网络条件化的单尺度正则化流,在原始音频上执行多对多的非并行语音转换,取得具有竞争力的客观与主观结果。它使用前向-后向转换、共享嵌入和数据增强来提升性能。
End-to-end models for raw audio generation are a challenge, specially if they have to work with non-parallel data, which is a desirable setup in many situations. Voice conversion, in which a model has to impersonate a speaker in a recording, is one of those situations. In this paper, we propose Blow, a single-scale normalizing flow using hypernetwork conditioning to perform many-to-many voice conversion between raw audio. Blow is trained end-to-end, with non-parallel data, on a frame-by-frame basis using a single speaker identifier. We show that Blow compares favorably to existing flow-based architectures and other competitive baselines, obtaining equal or better performance in both objective and subjective evaluations. We further assess the impact of its main components with an ablation study, and quantify a number of properties such as the necessary amount of training data or the preference for source or target speakers.
研究动机与目标
- 解决原始音频上的非并行、多说话人到多说话人的语音转换。
- 开发带有超条件的单尺度流架构以实现说话人身份控制。
- 将 Blaze 与基于流的基线和非流语音转换系统进行比较评估。
- 进行消融研究以量化架构与数据增强组件的影响。
提出的方法
- 使用一个带有8个块、每块12条流的单尺度 Glow 风格流(8x12)。
- 采用前向-后向转换,即源 x(S) 在源条件下映射到潜在变量 z,z 在目标条件下映射到 x(T)。
- 通过一个超网络从共享说话人嵌入生成权重来对耦合网络的第一层进行超条件化。
- 在所有耦合网络和所有步骤中共享单一说话人嵌入以约束条件化。
- 对原始音频帧进行时间抖动、前/后均衡、幅度缩放和符号翻转等数据增强。
- 训练以在潜在 z 上对等对数似然最大化为目标,且先验为各向同性高斯分布。
实验结果
研究问题
- RQ1单尺度超条件流是否能够在原始音频上实现具有竞争力的非并行、多说话人到多说话人的语音转换?
- RQ2前向-后向转换与共享嵌入对转换质量和对数似然的影响如何?
- RQ3数据增强策略对性能与鲁棒性有何影响?
- RQ4各个架构组件(超条件、共享嵌入、单尺度结构)对客观与主观指标的重要性分别如何?
主要发现
| 方法 | L [nat/dim] | Spoofing [%] | 自然度 [1–5] | 相似度 [%] |
|---|---|---|---|---|
| 源作为目标 | n/a | 1.1 | 4.83 | 10.6 |
| 目标作为目标 | n/a | 99.3 | 4.83 | 98.5 |
| Glow | 4.11 | 1.2 | n/a | n/a |
| Glow-WaveNet | 4.18 | 3.1 | n/a | n/a |
| StarGAN | n/a | 44.4 | 2.87 | 61.8 |
| VQ-VAE | n/a | 65.0 | 2.42 | 69.7 |
| Blow | 4.45 | 89.3 | 2.83 | 77.6 |
- Blow 在客观评估中的似然性 (L) 高于 Glow 与 Glow-WaveNet。
- Blow 在欺骗性识别(spoofing)准确率方面高于 VQ-VAE,表明在说话人身份迁移方面具有更强的抗性。
- 主观结果显示 Blow 的自然度与 StarGAN 相当,对目标的相似度高于 StarGAN 或 VQ-VAE。
- 消融研究表明单尺度结构是性能最关键的组成部分。
- 数据增强显著提升了客观与欺骗性指标。
- 转换性能强烈依赖目标说话人身份,源身份影响较小。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。