QUICK REVIEW
[論文レビュー] Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition
Zhang Yu, James Qin|arXiv (Cornell University)|Oct 20, 2020
Speech Recognition and Synthesis参考文献 53被引用数 200
ひとこと要約
この論文は wav2vec 2.0 の事前学習とノイズ付き生徒訓練、SpecAugment を組み合わせて LibriSpeech で最先端の WER を Libri-Light の無ラベルデータを用いて達成し、large Conformer モデルで test/test-other 1.4%/2.6% を達成。
ABSTRACT
We employ a combination of recent developments in semi-supervised learning for automatic speech recognition to obtain state-of-the-art results on LibriSpeech utilizing the unlabeled audio of the Libri-Light dataset. More precisely, we carry out noisy student training with SpecAugment using giant Conformer models pre-trained using wav2vec 2.0 pre-training. By doing so, we are able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other sets against the current state-of-the-art WERs 1.7%/3.3%.
研究の動機と目的
- LibriSpeech の性能向上のために ASR における大規模な半教師付き学習の利用を動機づける。
- 事前学習と反復自己学習を組み合わせると最先端の WER を実現できることを示す。
- モデルサイズと事前学習が ASR 性能を高める相互作用を探る。
提案手法
- LSTM デコーダを持つ Conformer ベースのシーケンス・トランスデューサーを使用。
- Libri-Light 無ラベルデータを用いた wav2vec 2.0 スタイルの自己教師付き事前学習でエンコーダを事前学習(log-mel 入力; マスキング; コントラスト損失; 量子化を線形投影に置換)。
- 適応的 SpecAugment を取り入れた Noisy Student Training を、教師ラベルが無ラベルデータ上で生成されるマルチジェネレーション NST ループで適用し、監督データを増強。
- NST 内で事前学習済みチェックポイントを Fine-tune し、SpecAugment、LM フュージョン、バッチ-wise データミキシング(1:9 監督データ:教師ラベル付きデータ)。
- 事前学習とゼロからの学習の影響を調べるために Conformer XL/XXL/XXL+ サイズで実験。
- LM フュージョン有無で LibriSpeech dev, dev-clean/dev-other, test, test-other を評価。
実験結果
リサーチクエスチョン
- RQ1 wav2vec 2.0 の事前学習と反復自己学習 (NST) および SpecAugment を組み合わせると LibriSpeech の WER を従来の SSL 手法より向上させられるか?
- RQ2 モデル容量の増大は事前学習と SSL とどう相互作用して ASR の性能を改善するか?
- RQ3 NST におけるデータ混合、LM フュージョン、アブレーションが最終的な WER に与える影響は?
- RQ4 Libri-Light の大規模な無ラベルデータに依存することが利得に必要か、また事前学習入力表現(log-mel vs 波形)への感度はどうか?
主な発見
| 方法 | 無ラベルデータ(hrs) | LMなし dev | LMなし dev-other | LMなし test | LMなし test-other | LMあり dev | LMあり dev-other | LMあり test | LMあり test-other |
|---|---|---|---|---|---|---|---|---|---|
| Gen3 Conformer XXL | 60k | 1.3 | 2.7 | 1.5 | 2.8 | 1.3 | 2.6 | 1.4 | 2.7 |
| Gen3 Conformer XXL+ | 60k | 1.3 | 2.7 | 1.5 | 2.7 | 1.3 | 2.6 | 1.4 | 2.6 |
- 巨大小の Conformer を用いた NST+事前学習パイプラインは LibriSpeech dev/test および dev-other/test-other で最先端の WER を達成(例:Gen3 Conformer XXL では LM なしで 1.3%/2.7%/1.5%/2.8%、LM ありで 1.3%/2.7%/1.5%/2.7%)。
- モデルサイズだけでは利益は保証されず、SSL 手法(事前学習と NST)を適用すると利益が現れる。
- Gen3 Conformer XXL および XXL+ が最高の結果を出し、NST の枠組み下で XXL+ は XXL よりわずかに追加利得を提供。
- 量子化なしの log-mel 入力と線形投影ブロックによる事前学習でも強力な結果が得られ、投影ヘッド設計を変更可能であることを示唆。
- アブレーションでは、教師生成データの量を最大化する(フィルタリング/バランスより)方がこの設定の generation-1 の性能に利益をもたらす。
- 事前学習データとモデルサイズを最大1Bパラメータまでスケールすると、教師なし以外の拡大とは異なり一貫した改善が見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。