Skip to main content
QUICK REVIEW

[論文レビュー] Effectiveness of self-supervised pre-training for speech recognition

Alexei Baevski, Michael Auli|arXiv (Cornell University)|Nov 10, 2019
Speech Recognition and Synthesis参考文献 57被引用数 100
ひとこと要約

論文は音声の自己教師付き事前学習アプローチを比較し、vq-wav2vecによる離散ユニット学習をBERT微調整と組み合わせた場合、連続表現よりASR精度が向上し、特にラベル付きデータが限られている場合に効果的であることを示している。

ABSTRACT

We compare self-supervised representation learning algorithms which either explicitly quantize the audio data or learn representations without quantization. We find the former to be more accurate since it builds a good vocabulary of the data through vq-wav2vec [1] to enable learning of effective representations in subsequent BERT training. Different to previous work, we directly fine-tune the pre-trained BERT models on transcribed speech using a Connectionist Temporal Classification (CTC) loss instead of feeding the representations into a task-specific model. We also propose a BERT-style model learning directly from the continuous audio data and compare pre-training on raw audio to spectral features. Fine-tuning a BERT model on 10 hour of labeled Librispeech data with a vq-wav2vec vocabulary is almost as good as the best known reported system trained on 100 hours of labeled data on testclean, while achieving a 25% WER reduction on test-other. When using only 10 minutes of labeled data, WER is 25.2 on test-other and 16.3 on test-clean. This demonstrates that self-supervision can enable speech recognition systems trained on a near-zero amount of transcribed data.

研究の動機と目的

  • 自己教師付き表現学習を通じてASRに必要なラベルデータ量の削減を動機づける。
  • 音声の離散(量子化)と連続の自己教師付き事前学習を比較する。
  • Librispeechにおけるさまざまなラベルデータ regime(10分〜100時間)での事前学習の影響を評価する。
  • 転写済み音声に直接CTC損失で微調整したBERTモデルを実証する。
  • 最も良い結果を生む入力表現(vq-wav2vec、MFCC、FBANK、wav2vec)を評価する。

提案手法

  • 960 hのLibrispeech未ラベルデータに対して離散的なvq-wav2vecを用いて事前学習し、13.5kのコードを学習する。
  • 離散化された単位に対してマスクド言語モデリングで訓練したBERTモデルを、CTC損失で微調整する。
  • 連続入力を持つBERTバリアントを、wav2vec、MFCC、またはFBANK特徴量で、コントラスト学習/InfoNCE目的で訓練したものと比較する。
  • Libri-lightのサブセット(10分、10時間、1時間、10時間、100時間)で事前学習済みモデルを微調整し、LibriSpeechのdev/test分割で評価する。
  • 微調整時にSpecAugment様のマスキングを適用して堅牢性を向上させる。
  • データレジームごとに単一のシードまたは複数のシードを使用し、最適化にはコサインスケジュールを用いる。

実験結果

リサーチクエスチョン

  • RQ1自己教師付き事前学習はASRにおけるラベルデータの必要性を減らせるか?
  • RQ2離散ユニット発見(vq-wav2vec)は、CTCで微調整した場合、下流のASRにおける連続表現より効果的か?
  • RQ3入力表現(vq-wav2vec、MFCC、FBANK、wav2vec)は、ラベル付きデータの量が変化するとどう比較されるか?
  • RQ42段階の事前学習(wav2vec/離散BERT)は、音声認識における単一段階のアプローチより優れているか?
  • RQ5Librispeechのラベル付きデータ10分対100時間での事前学習が性能に与える影響は何か?

主な発見

  • vq-wav2vec入力を用いた離散BERTは、すべてのデータレジームで連続BERTを一貫して上回る。
  • vq-wav2vecの量子化は、2つのテストサブセットのいずれにおいても、クラスタリングされたスペクトル特徴量と比較して約40%の相対WER低減を提供する。
  • 10時間のラベル付きデータで、vq-wav2vecを用いた離散BERTはtest-cleanで最高の100h結果にほぼ匹敵し、test-otherで25%の相対WER低減を達成する。
  • わずか10分のラベル付きデータで、Discrete BERTは16.3(test-clean)および25.2(test-other)のWERを達成。
  • 10時間のラベル付きデータでDiscrete BERTを微調整すると、test-cleanで100時間で学習した文献結果にほぼ匹敵し、test-otherでWERを25%減少させる。
  • 2段階の事前学習(wav2vecの後に連続BERT)で、単一段階のwav2vecプラス微調整より著しい利得を得て、場合によってWERを半減させる。
  • BERTの事前学習が続かない離散入力は性能が低く、シーケンスモデリング段階の必要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。