QUICK REVIEW

[論文レビュー] Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition

Zhang Yu, James Qin|arXiv (Cornell University)|Oct 20, 2020

Speech Recognition and Synthesis参考文献 53被引用数 200

ひとこと要約

この論文は wav2vec 2.0 の事前学習とノイズ付き生徒訓練、SpecAugment を組み合わせて LibriSpeech で最先端の WER を Libri-Light の無ラベルデータを用いて達成し、large Conformer モデルで test/test-other 1.4%/2.6% を達成。

ABSTRACT

We employ a combination of recent developments in semi-supervised learning for automatic speech recognition to obtain state-of-the-art results on LibriSpeech utilizing the unlabeled audio of the Libri-Light dataset. More precisely, we carry out noisy student training with SpecAugment using giant Conformer models pre-trained using wav2vec 2.0 pre-training. By doing so, we are able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other sets against the current state-of-the-art WERs 1.7%/3.3%.

研究の動機と目的

LibriSpeech の性能向上のために ASR における大規模な半教師付き学習の利用を動機づける。
事前学習と反復自己学習を組み合わせると最先端の WER を実現できることを示す。
モデルサイズと事前学習が ASR 性能を高める相互作用を探る。

提案手法

LSTM デコーダを持つ Conformer ベースのシーケンス・トランスデューサーを使用。
Libri-Light 無ラベルデータを用いた wav2vec 2.0 スタイルの自己教師付き事前学習でエンコーダを事前学習（log-mel 入力; マスキング; コントラスト損失; 量子化を線形投影に置換）。
適応的 SpecAugment を取り入れた Noisy Student Training を、教師ラベルが無ラベルデータ上で生成されるマルチジェネレーション NST ループで適用し、監督データを増強。
NST 内で事前学習済みチェックポイントを Fine-tune し、SpecAugment、LM フュージョン、バッチ-wise データミキシング（1:9 監督データ:教師ラベル付きデータ）。
事前学習とゼロからの学習の影響を調べるために Conformer XL/XXL/XXL+ サイズで実験。
LM フュージョン有無で LibriSpeech dev, dev-clean/dev-other, test, test-other を評価。

実験結果

リサーチクエスチョン

RQ1 wav2vec 2.0 の事前学習と反復自己学習 (NST) および SpecAugment を組み合わせると LibriSpeech の WER を従来の SSL 手法より向上させられるか？
RQ2 モデル容量の増大は事前学習と SSL とどう相互作用して ASR の性能を改善するか？
RQ3 NST におけるデータ混合、LM フュージョン、アブレーションが最終的な WER に与える影響は？
RQ4 Libri-Light の大規模な無ラベルデータに依存することが利得に必要か、また事前学習入力表現（log-mel vs 波形）への感度はどうか？

主な発見

方法	無ラベルデータ（hrs）	LMなし dev	LMなし dev-other	LMなし test	LMなし test-other	LMあり dev	LMあり dev-other	LMあり test	LMあり test-other
Gen3 Conformer XXL	60k	1.3	2.7	1.5	2.8	1.3	2.6	1.4	2.7
Gen3 Conformer XXL+	60k	1.3	2.7	1.5	2.7	1.3	2.6	1.4	2.6

巨大小の Conformer を用いた NST+事前学習パイプラインは LibriSpeech dev/test および dev-other/test-other で最先端の WER を達成（例：Gen3 Conformer XXL では LM なしで 1.3%/2.7%/1.5%/2.8%、LM ありで 1.3%/2.7%/1.5%/2.7%）。
モデルサイズだけでは利益は保証されず、SSL 手法（事前学習と NST）を適用すると利益が現れる。
Gen3 Conformer XXL および XXL+ が最高の結果を出し、NST の枠組み下で XXL+ は XXL よりわずかに追加利得を提供。
量子化なしの log-mel 入力と線形投影ブロックによる事前学習でも強力な結果が得られ、投影ヘッド設計を変更可能であることを示唆。
アブレーションでは、教師生成データの量を最大化する（フィルタリング/バランスより）方がこの設定の generation-1 の性能に利益をもたらす。
事前学習データとモデルサイズを最大1Bパラメータまでスケールすると、教師なし以外の拡大とは異なり一貫した改善が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。