[論文レビュー] AISHELL-3: A Multi-speaker Mandarin TTS Corpus and the Baselines
AISHELL-3 は、中国語文字と拼音の転写を含む大規模な Mandarin 多話者音声コーパス(約85時間、218話者)と、スピーカー埋め込みフィードバックを備えたベースライン多話者 TTS システムを提供し、ゼロショット声 cloning を可能にする。
In this paper, we present AISHELL-3, a large-scale and high-fidelity multi-speaker Mandarin speech corpus which could be used to train multi-speaker Text-to-Speech (TTS) systems. The corpus contains roughly 85 hours of emotion-neutral recordings spoken by 218 native Chinese mandarin speakers. Their auxiliary attributes such as gender, age group and native accents are explicitly marked and provided in the corpus. Accordingly, transcripts in Chinese character-level and pinyin-level are provided along with the recordings. We present a baseline system that uses AISHELL-3 for multi-speaker Madarin speech synthesis. The multi-speaker speech synthesis system is an extension on Tacotron-2 where a speaker verification model and a corresponding loss regarding voice similarity are incorporated as the feedback constraint. We aim to use the presented corpus to build a robust synthesis model that is able to achieve zero-shot voice cloning. The system trained on this dataset also generalizes well on speakers that are never seen in the training process. Objective evaluation results from our experiments show that the proposed multi-speaker synthesis system achieves high voice similarity concerning both speaker embedding similarity and equal error rate measurement. The dataset, baseline system code and generated samples are available online.
研究の動機と目的
- TTS研究のための大規模で公開可能な Mandarin 多話者音声コーパスを提供する。
- 性別、年齢、アクセントといった明示的な話者属性を用いた多話者 TTS システムの訓練を可能にする。
- 話者埋め込みとフィードバック制約を用いたベースラインの多話者 TTS システムを提示する。
- モデルの頑健性と一般化性能を向上させるデータ前処理と拡張戦略を調査する。
- 客観的指標を用いて話者類似性と未知話者への一般化を評価する。
提案手法
- AISHELL-3 データセットを導入。85 時間、218 名の母語話 Mandarin 話者、88,035 録音、および中国語の漢字と拼音の転写を含む。
- 話者無依存のテキスト前処理と、声の条件付けのための話者エンコーダを用いた Tacotron-2 ベースの話者対応音響モデルを開発する。
- 基準話者埋め込みと合成話者埋込みのコサイン類似度損失を追加して、話者埋め込みフィードバック制約を組み込む。
- 固定次元の話者埋め込みを得るために、グローバル平均-標準偏差プーリングを用いた ResNet ベースの話者エンコーダを使用する。
- 韻律ラベル予測、無音のトリミング、長文文の拡張などのデータ前処理手法を適用して、アライメントと一般化を改善する。
- 見出し話者と未知話者の話者類似性を客観的指標(コサイン類似度、SV-EER)で訓練・評価する。
実験結果
リサーチクエスチョン
- RQ1AISHELL-3 はゼロショット声 cloning を含む多話者 Mandarin TTS システムの効果的な訓練をサポートできるか?
- RQ2話者埋め込みフィードバック制約は未知話者に対する話者類似性と頑健性にどう影響するか?
- RQ3Mandarin TTS において、アライメント、韻律、および長文合成を改善するデータ前処理・拡張戦略は何か?
- RQ4英語の多話者コーパスと比較して、ベースラインシステムは Seen から Unseen 話者へどれくらい一般化できるか?
- RQ5合成された Mandarin 語音における話者類似性と声の同一性を反映する客観的指標は何か?
主な発見
| データプール | SV-EER (%) | コサイン距離(Dep) | コサイン距離(Indep) |
|---|---|---|---|
| AISHELL-3 recording | 4.47 * | - | - |
| AISHELL-3 validation | 4.56 / 4.26 | 0.918 / 0.917 | - |
| AISHELL-3 test-set | 9.46 / 9.56 | 0.868 / 0.871 | - |
| VCTK train-set | 5.02 / 3.42 | 0.842 / 0.670 | - |
| VCTK test-set | 8.22 / 7.68 | 0.764 / 0.577 | - |
- AISHELL-3 は 218 名の話者の Mandarin 発話 85 時間を含み、性別、年齢、アクセントの注釈と漢字および拼音の転写を含む。
- ベースラインの多話者 TTS システム(話者エンコーダと埋め込みフィードバックを備えた Tacotron-2)は、 seen および unseen 話者に対してコサイン類似度と SV-EER 指標で高い話者類似性を示す。
- 目的評価は、未知話者へ一般化しても話者類似性を維持し、EER の変化が以前の英語 VCTK ベースの研究と一致することを示す。
- データ拡張と前処理(韻律ラベリング、無音のトリミング、長文文の連結)は Tacotron-2 の最適化中の訓練効率とアライメントを改善する。
- モデルは固定された話者エンコーダを使用し、訓練中の声の類似性を強化するコサイン類似度損失項を用いる(alpha = 1.0)。
- 結果は prior VCTK ベースの研究と一致しており、AISHELL-3 のベースラインは堅牢な多話者 Mandarin 合成とゼロショット声 cloning を支持することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。