[論文レビュー] Multi-reference Tacotron by Intercross Training for Style Disentangling,Transfer and Control in Speech Synthesis
多参照エンコーダをTacotronに導入し、 intercross trainingで複数の話者スタイルクラスを分離・転送・独立制御。別々のサブエンコーダを通じて話者、感情、韻律、その他のスタイルを独立して制御可能を実証。
Speech style control and transfer techniques aim to enrich the diversity and expressiveness of synthesized speech. Existing approaches model all speech styles into one representation, lacking the ability to control a specific speech feature independently. To address this issue, we introduce a novel multi-reference structure to Tacotron and propose intercross training approach, which together ensure that each sub-encoder of the multi-reference encoder independently disentangles and controls a specific style. Experimental results show that our model is able to control and transfer desired speech styles individually.
研究の動機と目的
- 複数の話し方スタイルクラスを独立に制御できるようにして、表現力豊かなTTSを動機づける。
- 異なるスタイルクラスを別々にモデル化する多参照エンコーダ構造を提案する。
- スタイルエンコーダ間の分離を強制するためのインタークロストレーニングを導入する。
- 学習を安定化させ、スタイル埋め込み間の直交性を促進する補助タスクを追加する。
- シングルおよびマルチリファレンス設定の両方で、スタイルの分離、転送、制御を実験的に示す。
提案手法
- N個のGSTサブエンコーダからなる多参照エンコーダを備えたGST-Tacotronを拡張する。
- 各サブエンコーダは参照エンコーダとマルチヘッドアテンションを用いてスタイル埋め込みを生成する。
- 各サブエンコーダが特定のスタイルクラスを表すことを保証して分離を強制する(式1)。
- 再構成中にポストeriorsを交換するインタークロストレーニング(IT)を適用する(式2-5)。
- 任意の補助タスクとして、スタイル分類損失と独立したスタイル空間を促進する直交損失を組み込み(式7)。
- スタイル分離、転送、スタイル埋め込み間の補間の推論手順を提供する(式8-9)。
実験結果
リサーチクエスチョン
- RQ1多参照エンコーダは複数の話し方スタイルクラスを独立した表現に分離できるか?
- RQ2インタークロストレーニングはスタイル間で堅牢な分離・転送・独立制御を可能にするか?
- RQ3話者や韻律などの属性を滑らかに制御するためにスタイル埋め込みを補間できるか?
- RQ4新しい話者での少数-shot/ワン-shotスタイル転送を多参照アプローチで実現可能か?
- RQ5補助タスク(分類と直交性)は訓練を安定化させ、分離を改善するか?
主な発見
- 多参照モデルは意図したスタイルクラスごとにクラスタリングされるスタイル埋め込みを生成し、効果的な分離を示す。
- インタークロストレーニングは並行でないスタイル転送を可能にし、テキスト長と自然さを保持して、単一参照のベースラインより転送品質を向上させる。
- スタイル埋め込みは滑らかな線形補間をサポートし、話者と韻律の独立制御を可能にする。
- 異なるサブエンコーダからの埋め込みは、それぞれのスタイルクラスでクラスタリングされ、マルチリファレンス設定での独立制御を示す。
- このアプローチはFew-shotおよびOne-shotの話者変換をサポートし、微調整により新規話者で高い承認率を達成できる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。