Skip to main content
QUICK REVIEW

[论文解读] The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods

Jaime Lorenzo-Trueba, Junichi Yamagishi|arXiv (Cornell University)|Apr 12, 2018
Speech Recognition and Synthesis参考文献 3被引用 66
一句话总结

本论文介绍了 VCC 2018,引入 Hub(并行)和 Spoke(非并行)语音转换任务、大规模众包感知评估,并分析传统与神经 VC 方法,N10 在自然度和相似性方面表现最佳。

ABSTRACT

We present the Voice Conversion Challenge 2018, designed as a follow up to the 2016 edition with the aim of providing a common framework for evaluating and comparing different state-of-the-art voice conversion (VC) systems. The objective of the challenge was to perform speaker conversion (i.e. transform the vocal identity) of a source speaker to a target speaker while maintaining linguistic information. As an update to the previous challenge, we considered both parallel and non-parallel data to form the Hub and Spoke tasks, respectively. A total of 23 teams from around the world submitted their systems, 11 of them additionally participated in the optional Spoke task. A large-scale crowdsourced perceptual evaluation was then carried out to rate the submitted converted speech in terms of naturalness and similarity to the target speaker identity. In this paper, we present a brief summary of the state-of-the-art techniques for VC, followed by a detailed explanation of the challenge tasks and the results that were obtained.

研究动机与目标

  • 提供一个通用框架,用于评估和比较最先进的语音转换系统。
  • 在统一的听感测试中评估并行和非并行 VC 方法。
  • 分析感知质量与可懂度之间的关系,并与 ASV 伪装相关的考虑联系起来。

提出的方法

  • 描述 Hub 任务,使用并行数据,包含 4 个源说话人和 4 个目标说话人,以及 16 对源–目标。
  • 描述 Spoke 任务,使用非并行数据,目标说话人相同但源与话语不同。
  • 使用规模较大的众包听感测试来对转换语音的自然度和相似度进行评分。
  • 提供基线系统(sprocket 和 Merlin)并记录参与者系统与所使用的 vocoders。
  • 呈现对转换语音的 WER(ASR 基于可懂度) 的分析,以补充感知结果。

实验结果

研究问题

  • RQ1在相同评估框架下,并行和非并行 VC 系统之间有何比较?
  • RQ2包括 WaveNet 等神经 vocoders 在内的当前 VC 方法能达到的感知自然度和说话人相似度水平是多少?
  • RQ3VC 输出的主观质量(MOS)与客观可懂度(WER)之间存在何种关系?
  • RQ4VC 提交是否存在伪装风险,以及它们与 ASV 对策之间有何关系?

主要发现

  • 有 23 支队伍提交了 Hub 任务系统,其中 11 支也参与了 Spoke 任务。
  • N10 在 Hub 与 Spoke 任务中均达到最佳自然度,对目标语音的接近程度高且相似性高。
  • 基于 WaveNet 的系统(N10)在五点量表上的自然度约为 4.1,约 80% 的样本被判定为目标说话人。
  • Spoke(非并行)任务总体自然度低于 Hub,反映任务难度更大,而某些系统仍实现了合理的相似性。
  • MOS(自然度)与 WER 呈强烈负相关,表明频谱失真影响感知质量和可懂度。
  • 基线 sprocket 系统在同一性别条件下表现具有竞争力,但在跨性别条件下表现不佳。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。