QUICK REVIEW

[論文レビュー] Voice Conversion Challenge 2020: Intra-lingual semi-parallel and cross-lingual voice conversion

Yi Zhao, Wen-Chin Huang|arXiv (Cornell University)|Aug 28, 2020

Speech Recognition and Synthesis被引用数 34

ひとこと要約

この論文は VCC 2020 を報告する: 2 つのタスク（同一言語内の半並行と跨言語の VC）、新しい多言語データセット、提出システム、および主観評価による急速な VC の進歩を示す一方で、人間の自然さへのギャップが残り、特に跨言語シナリオで顕著である。

ABSTRACT

The voice conversion challenge is a bi-annual scientific event held to compare and understand different voice conversion (VC) systems built on a common dataset. In 2020, we organized the third edition of the challenge and constructed and distributed a new database for two tasks, intra-lingual semi-parallel and cross-lingual VC. After a two-month challenge period, we received 33 submissions, including 3 baselines built on the database. From the results of crowd-sourced listening tests, we observed that VC methods have progressed rapidly thanks to advanced deep learning methods. In particular, speaker similarity scores of several systems turned out to be as high as target speakers in the intra-lingual semi-parallel VC task. However, we confirmed that none of them have achieved human-level naturalness yet for the same task. The cross-lingual conversion task is, as expected, a more difficult task, and the overall naturalness and similarity scores were lower than those for the intra-lingual conversion task. However, we observed encouraging results, and the MOS scores of the best systems were higher than 4.0. We also show a few additional analysis results to aid in understanding cross-lingual VC better.

研究の動機と目的

同一言語内の半並行設定と跨言語設定の間で、VC メソッドを比較するための共通データセットとタスクを提供する。
自然さと話者類似性を中心としたクラウドソーシングによるリスニングテストを用いて、VC システムの進捗を評価する。
言語差が VC の性能評価に与える影響を理解する。
参加者が用いたシステムアーキテクチャと波形生成アプローチを記録する。

提案手法

EMIME 多言語コーパス上に、2つの VC タスク（同一言語内の半並行と跨言語）を構築する。
トレーニングおよび評価データを公開し、参加者からの提出を募集する（ベースラインを含む 34 システム）。
特徴変換モデルをエンコーダ-デコーダ、GAN ベース、並列スペクトルマッピングに分類し、タスク間の使用状況を分析する。
言語を跨いだ主観的 MOS ベースの自然さと同一/異なる話者類似性テストで変換済み音声を評価し、波形生成ボコーダ（ニューラル系と従来型）を比較する。
分析用のベースラインと代表的な系の詳細な説明（例：T10）を提供する。

実験結果

リサーチクエスチョン

RQ1共通データセット上で、同一言語内の半並行と跨言語設定における VC システムの性能はどうか？
RQ2各タスクで最高の性能を引き出すアーキテクチャ（エンコーダ-デコーダ、GAN ベース、並列スペクトルマッピング）とボ코ーダは何か？
RQ3言語差は VC における自然さと話者類似性の評価にどの程度影響するか？
RQ4跨言語 VC における真の自然さと変換音声に関して、どんな洞察が得られるか？
RQ5これらのタスクにおける上位システムと人間レベルの自然さを比較するとどうか？

主な発見

深層学習の進展により VC 手法は急速に進歩しており、同一言語内の半並行系のいくつかは話者類似性スコアをターゲット話者に近づけている。
同一言語内の半並行 VC では人間レベルの自然さを達成したシステムはなかった。
跨言語 VC の結果はより難易だが、最良のシステムは自然さで MOS スコアが 4.0 を超えた。
提出の大部分は特徴変換にエンコーダ-デコーダまたは GAN ベースのモデルを使用し、しばしば非並列データを用いた；並列スペクトルモデルはあまり多くなかった。
ニューラルボコーダ（例：WaveNet、WaveRNN、LPCNet、Parallel WaveGAN）および非自己回帰ボコーダ（例：WaveGlow、MelGAN、 NSF）は波形生成で広く採用された。一部のシステムでは伝統的なボコーダ（WORLD、Griffin-Lim）も使用された。
評価には母語話者と非母語話者を含み、跨言語タスクは英語・ドイツ語・フィンランド語・中国語（ Mandarin ）の複数言語の参照を用いて現実的な翻訳シナリオを反映した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。