[論文レビュー] Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
本論文は、話者表現を合成から切り離す多声TTSシステムを提示する。事前学習済みの話者エンコーダを用いて、Tacotron 2ベースの合成器とWaveNetボコーダを介して未見の話者のゼロショット合成を可能にする。大規模で多様かつラベル付けされていない話者データセットが新しい声への汎化を改善することを示している。
We describe a neural network-based system for text-to-speech (TTS) synthesis that is able to generate speech audio in the voice of many different speakers, including those unseen during training. Our system consists of three independently trained components: (1) a speaker encoder network, trained on a speaker verification task using an independent dataset of noisy speech from thousands of speakers without transcripts, to generate a fixed-dimensional embedding vector from seconds of reference speech from a target speaker; (2) a sequence-to-sequence synthesis network based on Tacotron 2, which generates a mel spectrogram from text, conditioned on the speaker embedding; (3) an auto-regressive WaveNet-based vocoder that converts the mel spectrogram into a sequence of time domain waveform samples. We demonstrate that the proposed model is able to transfer the knowledge of speaker variability learned by the discriminatively-trained speaker encoder to the new task, and is able to synthesize natural speech from speakers that were not seen during training. We quantify the importance of training the speaker encoder on a large and diverse speaker set in order to obtain the best generalization performance. Finally, we show that randomly sampled speaker embeddings can be used to synthesize speech in the voice of novel speakers dissimilar from those used in training, indicating that the model has learned a high quality speaker representation.
研究の動機と目的
- 短く未転写の参照音声から話者の特徴を捉える話者エンコーダを学習する。
- 合成データの転写が不要な、話者埋め込みを条件とした多声TTS合成器を訓練する。
- 訓練中に見られなかった話者へのゼロショット音声転送を実証する。
- MOSと話者検証指標を用いて自然性と話者類似性を評価する。
- 話者エンコーダの訓練データの量と多様性が転送品質にどう影響するかを分析する。
提案手法
- 未転写・ノイズを含むデータで話者検証を学習した話者エンコーダ、話者埋め込みを条件としたTacotron 2–ベースのシーケンス対シーケンス合成器、メルスペクトログラムを波形に変換するWaveNetボコーダの3つのコンポーネントを独立に訓練する。
- 話者埋め込みは短い参照音声(数秒)から取得され、合成器を各時刻で条件付けする。
- 訓練は転移学習設定を用い、合成器を訓練する際に話者エンコーダを固定し、スペクトログラムへのターゲットは音素列から導出する。
- ノイズの多いデータへの頑健性を向上させるため、スペクトログラムのL2とL1を組み合わせた損失で合成器のターゲットを訓練する。
- 評価には、自然さと類似性の主観的MOSと、見られていない話者に対する客観的話者検証EERを含む。
実験結果
リサーチクエスチョン
- RQ1大規模で未転写データから学習された別個の話者エンコーダは、未見の話者に対するゼロショット多声TTSを可能にするか?
- RQ2話者エンコーダ訓練データの多様性と規模は、合成音声の自然さと話者類似性にどう影響するか?
- RQ3訓練時に見られていない声への話者特徴の転送がどの程度可能か。ノイズレベルやアクセントが異なるデータセット間を含む場合も含む。
主な発見
- 提案モデルは、見られた話者と未見話者の両方に対して、VCTKとLibriSpeechで約4.0 MOSを達成する。
- LibriSpeechでは、未見話者の自然さは4.12 MOSに達し、見られた話者の性能に近い。一方、VCTKはデータがよりクリアなため、類似性がより強い。
- 未見話者では話者類似性が低下し、LibriSpeechでの評価でMOSが低下する。より多様な話者データ(例:LibriSpeech + VoxCeleb)で合成器を訓練すると類似性は向上する。
- 数千人の話者で訓練された大規模で多様な事前訓練話者エンコーダを使用すると、ゼロショット転送品質が著しく向上し、訓練データとは異なる架空の話者からの生成を可能にする。
- データセット間評価は、LibriSpeech訓練の合成器が未見データへより良く一般化することを示し、VCTK訓練のものよりも多様な訓練ソースの重要性を強調する。
- 話者検証EERは、LibriSpeech訓練の合成器が実在話者により類似した声を出すことを示し、VCTK訓練のものよりも類似度が高く、合成音声は一般に実在音声と混同されない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。