QUICK REVIEW

[論文レビュー] SpeechStew: Simply Mix All Available Speech Recognition Data to Train One Large Neural Network

William Chan, Daniel Park|arXiv (Cornell University)|Apr 5, 2021

Speech Recognition and Synthesis参考文献 54被引用数 75

ひとこと要約

SpeechStew は複数の公開ASRデータセットを混合して単一の大規模なエンドツーエンドモデルを訓練し、外部言語モデルなしで最先端またはほぼ最先端の結果を達成し、CHiME-6 への強い転移学習を示す。

ABSTRACT

We present SpeechStew, a speech recognition model that is trained on a combination of various publicly available speech recognition datasets: AMI, Broadcast News, Common Voice, LibriSpeech, Switchboard/Fisher, Tedlium, and Wall Street Journal. SpeechStew simply mixes all of these datasets together, without any special re-weighting or re-balancing of the datasets. SpeechStew achieves SoTA or near SoTA results across a variety of tasks, without the use of an external language model. Our results include 9.0\% WER on AMI-IHM, 4.7\% WER on Switchboard, 8.3\% WER on CallHome, and 1.3\% on WSJ, which significantly outperforms prior work with strong external language models. We also demonstrate that SpeechStew learns powerful transfer learning representations. We fine-tune SpeechStew on a noisy low resource speech dataset, CHiME-6. We achieve 38.9\% WER without a language model, which compares to 38.6\% WER to a strong HMM baseline with a language model.

研究の動機と目的

再重み付けやドメイン特化の調整を行わず、多様で公開されているデータセットを活用してエンドツーエンドASRの一般化を向上させることを動機づける。
混合データを用いて単一モデルを100Mまたは1Bパラメータへスケールさせる、単純なマルチドメイン訓練レシピを提案する。
事前学習済みモデルを低リソースでノイズの多いデータセット（CHiME-6）でファインチューニングして転移学習を実証する。
推論時に外部言語モデルを用いず、広範なタスクに渡る性能を評価する。

提案手法

単一の大規模Conformer-RNN-Tモデルを訓練する（100Mおよび1Bパラメータ構成）。
データ再加重を行わず、AMI、Common Voice、English Broadcast News、LibriSpeech、Switchboard/Fisher、TED-LIUM v3、WSJを組み合わせる。
supervised SpeechStew 訓練の前に LibriLight 上で wav2vec 2.0 を用いて1Bモデルを事前訓練する。
評価には SpecAugment と Adam/Adafactor オプティマイザーを用いた大規模バッチ訓練および指数移動平均を使用する。
転移学習機能を示すため、CHiME-6 で事前学習済み SpeechStew をファインチューニングする。
推論時には外部言語モデルは使用しない。

実験結果

リサーチクエスチョン

RQ1複数の公開音声認識データセットを単純に混合するだけで、外部言語モデルなしに多様なASRタスクで最先端またはそれに近い結果を達成する単一の大規模モデルを訓練できるのか？
RQ2大規模マルチドメインモデルは、ファインチューニング後に低リソースでノイズの多いデータセットの性能を改善する転移学習能力を保持するか？
RQ3非常に大きなパラメータ数の場合、wav2vec の事前訓練は大規模な supervised SpeechStew モデルとどのように相互作用するか？

主な発見

SpeechStew は AMI-IHM で 9.0 WER、Common Voice で 21.7 WER（100M モデル）を達成。
SpeechStew は LibriSpeech で 12.1 WER（クリーン）、9.7 WER（句読点正規化時）を達成。
SpeechStew は Switchboard で 4.7 WER、CallHome で 8.3 WERを達成。
SpeechStew は WSJ で 1.3 WER を達成。
SpeechStew 1B は LibriLight 事前訓練で一部タスクを100Mモデルより改善し、CHiME-6 への転移学習性能が高い（finetuned: 38.9 WER on CHiME-6 eval）。
Zero-shot CHiME-6 (SpeechStew 1B) は eval で 53.7 WER、dev で 39.2 だが、ファインチューニングで eval の WER が 38.9 に改善。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。