QUICK REVIEW

[論文レビュー] Effectiveness of self-supervised pre-training for speech recognition

Alexei Baevski, Michael Auli|arXiv (Cornell University)|Nov 10, 2019

Speech Recognition and Synthesis参考文献 57被引用数 100

ひとこと要約

論文は音声の自己教師付き事前学習アプローチを比較し、vq-wav2vecによる離散ユニット学習をBERT微調整と組み合わせた場合、連続表現よりASR精度が向上し、特にラベル付きデータが限られている場合に効果的であることを示している。

ABSTRACT

We compare self-supervised representation learning algorithms which either explicitly quantize the audio data or learn representations without quantization. We find the former to be more accurate since it builds a good vocabulary of the data through vq-wav2vec [1] to enable learning of effective representations in subsequent BERT training. Different to previous work, we directly fine-tune the pre-trained BERT models on transcribed speech using a Connectionist Temporal Classification (CTC) loss instead of feeding the representations into a task-specific model. We also propose a BERT-style model learning directly from the continuous audio data and compare pre-training on raw audio to spectral features. Fine-tuning a BERT model on 10 hour of labeled Librispeech data with a vq-wav2vec vocabulary is almost as good as the best known reported system trained on 100 hours of labeled data on testclean, while achieving a 25% WER reduction on test-other. When using only 10 minutes of labeled data, WER is 25.2 on test-other and 16.3 on test-clean. This demonstrates that self-supervision can enable speech recognition systems trained on a near-zero amount of transcribed data.

研究の動機と目的

自己教師付き表現学習を通じてASRに必要なラベルデータ量の削減を動機づける。
音声の離散（量子化）と連続の自己教師付き事前学習を比較する。
Librispeechにおけるさまざまなラベルデータ regime（10分〜100時間）での事前学習の影響を評価する。
転写済み音声に直接CTC損失で微調整したBERTモデルを実証する。
最も良い結果を生む入力表現（vq-wav2vec、MFCC、FBANK、wav2vec）を評価する。

提案手法

960 hのLibrispeech未ラベルデータに対して離散的なvq-wav2vecを用いて事前学習し、13.5kのコードを学習する。
離散化された単位に対してマスクド言語モデリングで訓練したBERTモデルを、CTC損失で微調整する。
連続入力を持つBERTバリアントを、wav2vec、MFCC、またはFBANK特徴量で、コントラスト学習/InfoNCE目的で訓練したものと比較する。
Libri-lightのサブセット（10分、10時間、1時間、10時間、100時間）で事前学習済みモデルを微調整し、LibriSpeechのdev/test分割で評価する。
微調整時にSpecAugment様のマスキングを適用して堅牢性を向上させる。
データレジームごとに単一のシードまたは複数のシードを使用し、最適化にはコサインスケジュールを用いる。

実験結果

リサーチクエスチョン

RQ1自己教師付き事前学習はASRにおけるラベルデータの必要性を減らせるか？
RQ2離散ユニット発見（vq-wav2vec）は、CTCで微調整した場合、下流のASRにおける連続表現より効果的か？
RQ3入力表現（vq-wav2vec、MFCC、FBANK、wav2vec）は、ラベル付きデータの量が変化するとどう比較されるか？
RQ42段階の事前学習（wav2vec/離散BERT）は、音声認識における単一段階のアプローチより優れているか？
RQ5Librispeechのラベル付きデータ10分対100時間での事前学習が性能に与える影響は何か？

主な発見

vq-wav2vec入力を用いた離散BERTは、すべてのデータレジームで連続BERTを一貫して上回る。
vq-wav2vecの量子化は、2つのテストサブセットのいずれにおいても、クラスタリングされたスペクトル特徴量と比較して約40%の相対WER低減を提供する。
10時間のラベル付きデータで、vq-wav2vecを用いた離散BERTはtest-cleanで最高の100h結果にほぼ匹敵し、test-otherで25%の相対WER低減を達成する。
わずか10分のラベル付きデータで、Discrete BERTは16.3（test-clean）および25.2（test-other）のWERを達成。
10時間のラベル付きデータでDiscrete BERTを微調整すると、test-cleanで100時間で学習した文献結果にほぼ匹敵し、test-otherでWERを25%減少させる。
2段階の事前学習（wav2vecの後に連続BERT）で、単一段階のwav2vecプラス微調整より著しい利得を得て、場合によってWERを半減させる。
BERTの事前学習が続かない離散入力は性能が低く、シーケンスモデリング段階の必要性を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。