[論文レビュー] AdaSpeech: Adaptive Text to Speech for Custom Voice
AdaSpeechは、発話レベルと音素レベルの音響条件をモデル化し、条件付きレイヤー正規化を用いて適応パラメータを小さく保つことで、少ない適応データで元のTTSモデルを新しい声質へ適応させます。
Custom voice, a specific text to speech (TTS) service in commercial speech platforms, aims to adapt a source TTS model to synthesize personal voice for a target speaker using few speech data. Custom voice presents two unique challenges for TTS adaptation: 1) to support diverse customers, the adaptation model needs to handle diverse acoustic conditions that could be very different from source speech data, and 2) to support a large number of customers, the adaptation parameters need to be small enough for each target speaker to reduce memory usage while maintaining high voice quality. In this work, we propose AdaSpeech, an adaptive TTS system for high-quality and efficient customization of new voices. We design several techniques in AdaSpeech to address the two challenges in custom voice: 1) To handle different acoustic conditions, we use two acoustic encoders to extract an utterance-level vector and a sequence of phoneme-level vectors from the target speech during training; in inference, we extract the utterance-level vector from a reference speech and use an acoustic predictor to predict the phoneme-level vectors. 2) To better trade off the adaptation parameters and voice quality, we introduce conditional layer normalization in the mel-spectrogram decoder of AdaSpeech, and fine-tune this part in addition to speaker embedding for adaptation. We pre-train the source TTS model on LibriTTS datasets and fine-tune it on VCTK and LJSpeech datasets (with different acoustic conditions from LibriTTS) with few adaptation data, e.g., 20 sentences, about 1 minute speech. Experiment results show that AdaSpeech achieves much better adaptation quality than baseline methods, with only about 5K specific parameters for each speaker, which demonstrates its effectiveness for custom voice. Audio samples are available at https://speechresearch.github.io/adaspeech/.
研究の動機と目的
- カスタムボイスの課題に対処する: (1) 異なる話者や環境からの適応データに含まれる多様な音響条件に対応すること; (2) 大規模ユーザーベースに対して話者ごとのパラメータを最小限にしてスケーラブルな適応を可能にすること; (3) 少数の適応サンプルでも高い自然さと話者類似性を実現すること。
提案手法
- バックボーンとしてFastSpeech 2を採用し、発話レベルエンコーダと音素レベルエンコーダの二つの音響条件エンコーダを組み込み、事前学習とファインチューニングの間にグローバルな音響条件と局所的な音響条件を捉えます。
- 推論時には、参照音声から発話レベルの条件を導出し、音素レベルの条件を音素レベルの音響予測器で予測します。
- メルスペクトログラムデコーダに条件付きレイヤー正規化を導入し、スケールとバイアスベクトルを小さな話者条件付きネットワークから生成することで、わずかなパラメータのみを微調整できるようにします。
- 適応時には条件付きレイヤー正規化パラメータと話者埋め込みのみを微調整し、他の構成要素は固定します。
- LibriTTSで事前学習し、限られた適応データ(例: 約20文)でVCTKとLJSpeechをファインチューニングします。
- ボコーダー: MelGANを用いて生成されたメルスペクトログラムから波形を合成します。
実験結果
リサーチクエスチョン
- RQ1限られた適応データで、さまざまな音響条件下にある新しい声に対してTTSをどのように適応させられるか?
- RQ2複数の粒度で音響条件をモデリングすることで、異なるドメイン間の声の適応品質を向上させることができるか?
- RQ3条件付きレイヤー正規化は、全パラメータを微調整するよりもはるかに少ないパラメータで高品質な適応を可能にするか?
- RQ4AdaSpeechにおける適応データ量と声質の品質のトレードオフはどうなるか?
主な発見
- AdaSpeechはLibriTTSからの適応時に、LibriTTS、LJSpeech、VCTKのベースラインより高い適応品質(MOSとSMOS)を達成し、声ごとに約1.2Mの共有パラメータ+4.9Kの話者固有パラメータを使用します。
- AdaSpeechは話者埋め込みのみを微調整するベースラインやデコーダ全体を微調整するベースラインを上回り、はるかに少ない適応パラメータで動作します。
- アブレーション研究は、発話レベルの音響条件または音素レベルの音響条件のいずれかを除去したり、条件付きレイヤー正規化を除外したりすると声質が低下することを示し、各要素の有効性を検証します。
- ドメイン間適応(LibriTTS -> LJSpeechまたはVCTK)では、AdaSpeechはインドメイン適応に対するMOS/SMOSの差が大きく、ドメイン間の音響ミスマッチの課題を浮き彫りにします。
- 適応パイプライン(事前学習、CLNパラメータと話者埋め込みのファインチューニング、予測された音素レベルベクトルを用いた推論)は、低いメモリオーバーヘッドでの実用的な展開を可能にします。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。