QUICK REVIEW

[論文レビュー] Towards Robust Neural Vocoding for Speech Generation: A Survey

Po‐Chun Hsu, Chun-hsuan Wang|arXiv (Cornell University)|Dec 5, 2019

Speech Recognition and Synthesis参考文献 24被引用数 23

ひとこと要約

本調査では、WaveNet、WaveRNN、FFTNet、Parallel WaveGAN の4つのニューラルボコーダーが、未学習の話者、言語、音声合成タスクを含む多様な学習および推論条件において、どの程度の頑健性を示すかを評価している。結果から、一般化性能において言語よりも話者の多様性がより重要であることが示され、テキスト音声合成ではWaveNetとWaveRNNが優れた性能を示し、音声変換応用ではParallel WaveGANが他のモデルを上回った。

ABSTRACT

Recently, neural vocoders have been widely used in speech synthesis tasks, including text-to-speech and voice conversion. However, when encountering data distribution mismatch between training and inference, neural vocoders trained on real data often degrade in voice quality for unseen scenarios. In this paper, we train four common neural vocoders, including WaveNet, WaveRNN, FFTNet, Parallel WaveGAN alternately on five different datasets. To study the robustness of neural vocoders, we evaluate the models using acoustic features from seen/unseen speakers, seen/unseen languages, a text-to-speech model, and a voice conversion model. We found out that the speaker variety is much more important for achieving a universal vocoder than the language. Through our experiments, we show that WaveNet and WaveRNN are more suitable for text-to-speech models, while Parallel WaveGAN is more suitable for voice conversion applications. Great amount of subjective MOS results in naturalness for all vocoders are presented for future studies.

研究の動機と目的

学習データと推論データの分布シフトが生じた状況下におけるニューラルボコーダーの頑健性を調査すること。
話者および言語のばらつきが、未学習の条件下でのボコーダーの一般化性能にどのように影響するかを評価すること。
テキスト音声合成および音声変換タスクにおいて、4つの主要なニューラルボコーダー（WaveNet、WaveRNN、FFTNet、Parallel WaveGAN）の性能を比較すること。
今後のニューラルボコーディングのベンチマークおよびモデル開発のための包括的な主観的MOS結果を提供すること。

提案手法

単一話者／複数話者および単言語／多言語の5つの異なるデータセットを用いて、WaveNet、WaveRNN、FFTNet、Parallel WaveGAN の4つのニューラルボコーダーを学習した。
8ビット量子化波形と平均意見スコア（MOS）アンケートを用いた標準化された評価プロトコルを採用し、知覚的品質を評価した。
Tacotron2および音声変換モデルを用いて、人間の音声、話者一般化（性別を含む）、エンドツーエンド音声合成タスクでモデルを評価した。
標準的な指標を適用：自然さの評価にMOSを用い、音声変換においてはグリフィス・リムをヒューリスティックベースラインとして比較した。
アーキテクチャ間での公平な比較を図るため、モデルの入力をメルスペクトログ램入力に一致させた。
学習済みおよび未学習のドメイン、特に異言語および異話者設定を含む、学習済みおよび未学習のドメインで推論を実施した。

実験結果

リサーチクエスチョン

RQ1未学習の話者に対してテストされた際、話者のばらつきがニューラルボコーダーの頑健性にどのように影響するか？
RQ2未学習の言語状況において、言語のばらつきがニューラルボコーダーの一般化性能にどのように影響するか？
RQ3上流のTTSモデルとは異なるデータセットで学習されたボコーダーが、テキスト音声合成で最も優れた性能を発揮するのはどのボコーダーか？
RQ4特にドメイン外データで学習された場合に、どのニューラルボコーダーが音声変換タスクで最も高い自然さと頑健性を達成するか？
RQ5分布シフト下で、自己回帰型（WaveNet、WaveRNN）と非自己回帰型（Parallel WaveGAN、FFTNet）ボコーダーの相対的性能はいかがなっているか？

主な発見

ニューラルボコーダーの頑健性を達成するには、言語よりも話者の多様性がより重要である。多様な話者で学習したモデルは、未学習の話者に対してもより良好に一般化する。
上流TTSモデルと同じデータ分布で学習された場合、WaveNetとWaveRNNがテキスト音声合成で最高のMOSスコアを達成し、特にLJデータではWaveRNNが4.16 ± 0.18のMOSを記録した。
音声変換タスクでは、Parallel WaveGANが他のすべてのボコーダーを上回り、VCTKデータでは3.83 ± 0.20のMOSを記録し、グリフィス・リム（2.72 ± 0.21）を著しく上回った。
ドメイン外条件においても最も一貫性のある性能を示したのはWaveNetであり、推論速度が遅いものの、優れた頑健性を示した。
FFTNetは全体的なMOSスコアが低く（例：LJデータでは2.75 ± 0.27）、万能ボコーダーとしての適性が限定的であることが示された。
条件付きモデル（真値に一致する予測）は最高のMOS（4.54 ± 0.16）を達成し、テキスト音声合成品質の上限としての役割を果たした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。