QUICK REVIEW

[論文レビュー] The Voice Conversion Challenge 2018: Promoting Development of Parallel and Nonparallel Methods

Jaime Lorenzo-Trueba, Junichi Yamagishi|arXiv (Cornell University)|Apr 12, 2018

Speech Recognition and Synthesis参考文献 3被引用数 66

ひとこと要約

本論文はVCC 2018を紹介し、Hub（並列）とSpoke（非並列）の声質変換タスク、大規模なクラウドソーシングによる知覚評価、および伝統的およびニューラルVCアプローチの分析を提示する。N10が自然さと類似性の両方で最良の性能を示している。

ABSTRACT

We present the Voice Conversion Challenge 2018, designed as a follow up to the 2016 edition with the aim of providing a common framework for evaluating and comparing different state-of-the-art voice conversion (VC) systems. The objective of the challenge was to perform speaker conversion (i.e. transform the vocal identity) of a source speaker to a target speaker while maintaining linguistic information. As an update to the previous challenge, we considered both parallel and non-parallel data to form the Hub and Spoke tasks, respectively. A total of 23 teams from around the world submitted their systems, 11 of them additionally participated in the optional Spoke task. A large-scale crowdsourced perceptual evaluation was then carried out to rate the submitted converted speech in terms of naturalness and similarity to the target speaker identity. In this paper, we present a brief summary of the state-of-the-art techniques for VC, followed by a detailed explanation of the challenge tasks and the results that were obtained.

研究の動機と目的

最先端の声変換システムを評価・比較する共通の枠組みを提供する。
統一された聴取テストの下で並列および非並列VC手法を評価する。
知覚品質と可聴性の関係を分析し、ASVスプーフィングの観点と関連付ける。

提案手法

4人の話者を出発元、4人をターゲットとする並列データを用いたHubタスクを説明し、16組のソース–ターゲット対を含む。
同じターゲット話者を用いつつ、別のソースと発話を用いた非並列データによるSpokeタスクを説明する。
変換音声の自然さと類似性を評価する大規模なクラウドソーシング聴取テストを実施する。
ベースラインシステム（sprocketとMerlin）を提供し、参加者システムと使用されたボコーダを文書化する。
変換音声のWER（ASRベースの intelligibility）分析を提示し、知覚結果を補完する。

実験結果

リサーチクエスチョン

RQ1同じ評価フレームワークの下で、並列と非並列VCシステムはどのように比較されるか。
RQ2WaveNetのようなニューラルボコーダを含む現在のVCアプローチで達成可能な知覚的自然さと話者類似性のレベルはどれか。
RQ3VC出力における主観的品質（MOS）と客観的可聴性（WER）の関係はどうなるか。
RQ4VC提出はスプーフィングリスクを生じさせるのか、ASV対策とどのように関連するのか。

主な発見

Hubタスクのシステムを提出したチームは23件、うち11件はSpokeタスクにも参加。
N10は最良の自然さを達成し、ターゲット音声に近く、HubとSpokeの両タスクで高い類似性を示した。
WaveNetベースのシステム（N10）は5点尺度で自然さ約4.1、約80%のサンプルがターゲット話者として判断された。
Spoke（非並列）タスクはHubより全体的に自然さが低く、タスクの難易度が高いことを反映している一方で、いくつかのシステムは合理的な類似性を達成した。
MOS（自然さ）とWERの間には強い負の相関があり、スペクトル歪みが知覚品質と可聴性の両方に影響を与えることを示す。
ベースラインのsprocketシステムは同一性別のケースでは競争力を示したが、性別をまたぐ条件では苦戦した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。