[論文レビュー] Almost Unsupervised Text to Speech and Automatic Speech Recognition
The paper presents an almost unsupervised framework that jointly trains TTS and ASR using a few hundred paired samples plus large amounts of unpaired data, via denoising auto-encoders, dual transformation, bidirectional sequence modeling, all in a unified Transformer-based model.
Text to speech (TTS) and automatic speech recognition (ASR) are two dual tasks in speech processing and both achieve impressive performance thanks to the recent advance in deep learning and large amount of aligned speech and text data. However, the lack of aligned data poses a major practical problem for TTS and ASR on low-resource languages. In this paper, by leveraging the dual nature of the two tasks, we propose an almost unsupervised learning method that only leverages few hundreds of paired data and extra unpaired data for TTS and ASR. Our method consists of the following components: (1) a denoising auto-encoder, which reconstructs speech and text sequences respectively to develop the capability of language modeling both in speech and text domain; (2) dual transformation, where the TTS model transforms the text $y$ into speech $\hat{x}$, and the ASR model leverages the transformed pair $(\hat{x},y)$ for training, and vice versa, to boost the accuracy of the two tasks; (3) bidirectional sequence modeling, which addresses error propagation especially in the long speech and text sequence when training with few paired data; (4) a unified model structure, which combines all the above components for TTS and ASR based on Transformer model. Our method achieves 99.84% in terms of word level intelligible rate and 2.68 MOS for TTS, and 11.7% PER for ASR on LJSpeech dataset, by leveraging only 200 paired speech and text data (about 20 minutes audio), together with extra unpaired speech and text data.
研究の動機と目的
- 低リソース言語におけるTTSとASRのデータ不足問題に対処する。
- TTSとASRのデュアル性を活用して、最小限のペアデータで両方のタスクを改善する。
- 双方向に音声とテキストを処理できる統一されたTransformerベースのアーキテクチャを開発する。
- 双方向の系列モデリングを通じて長い系列での誤伝播を緩和する。
提案手法
- 非ペアデータから、音声とテキストの両方のドメインで言語モデリングを学ぶためにデノイジング自己符号化器を用いる。
- デュアル変換(バック翻訳に触発)を導入し、ASR出力からTTSを、TTS出力からASRを訓練する。
- 左から右へと右から左への系列を生成して、誤伝播を低減するための雙方向系列モデリングを採用する。
- 音声とテキストの入力/出力モジュールを含む、TTSとASRに共通の部品を持つ統一されたTransformerベースのモデルを採用する。
- 限られたペアデータ上の監督損失とともに、デノイジング自己符号化器損失とデュアル変換損失を組み合わせて訓練する。
実験結果
リサーチクエスチョン
- RQ1数百のペアサンプルと大量の非ペアデータを用いたほぼ教師なし設定で、TTSとASRを効果的に訓練できるか?
- RQ2TTSとASRのデュアル性を活用したデュアル変換は、ペアデータのみを使用した場合と比べて両方のタスクを改善するか?
- RQ3低リソース条件下で、長い音声/テキスト系列における誤伝播を双方向系列モデリングは緩和できるか?
- RQ4共通パラメータを持つ統一されたTransformerベースのアーキテクチャは、TTSとASRの入力/出力の両方を処理できるか?
主な発見
| Method | MOS (TTS) | PER (ASR) |
|---|---|---|
| GT | 4.54 | - |
| GT (Griffin-Lim) | 3.21 | - |
| Supervised | 3.04 | 2.5% |
| Pair-200 | Null | 72.3% |
| Our Method | 2.68 | 11.7% |
- 約200ペアのサンプルと非ペアデータのみを用いて、TTSでの語レベル聴取可能性を99.84%に達成(200ペアデータだけではほぼ0に相当)
- 同条件下でLJSpeechにおいてTTSで2.68 MOS、ASRで11.7% PERを達成し、200ペアデータのベースラインを上回る。
- 双方向系列モデリングは、DTのみのベースラインに対してMOSを0.40改善し、PERを3.6ポイント低減させる。
- アブレーションではDAEがASRのPERを72.3%から52.0%へ向上させる;DTを追加するとPERが15.3%(MOSは2.11)へ低下;双方向モデリングを追加するとさらにPERが11.7%に、MOSが2.51へ改善。
- より多くのペアデータ(e.g., 500ペア)ではPERが4.4%に改善し、監督下の下限(2.5%)に近づく。
- メルスペクトログラムの可視化は、双方向モデリングで特にシーケンスの末尾で、より細かなディテールの回復を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。