QUICK REVIEW

[論文レビュー] Robust Speech Recognition via Large-Scale Weak Supervision

Alec Radford, Jong Wook Kim|arXiv (Cornell University)|Dec 6, 2022

Speech Recognition and Synthesis被引用数 1,135

ひとこと要約

Whisperは、弱監視付きの多言語データ680k hoursで学習し、ファインチューニングなしで監督付きモデルに匹敵するzero-shotの堅牢な音声認識を実現し、堅牢性の点で人間の性能に近づく。

ABSTRACT

We study the capabilities of speech processing systems trained simply to predict large amounts of transcripts of audio on the internet. When scaled to 680,000 hours of multilingual and multitask supervision, the resulting models generalize well to standard benchmarks and are often competitive with prior fully supervised results but in a zero-shot transfer setting without the need for any fine-tuning. When compared to humans, the models approach their accuracy and robustness. We are releasing models and inference code to serve as a foundation for further work on robust speech processing.

研究の動機と目的

大規模な弱監視事前学習が、言語やタスクを跨ぐ堅牢でzero-shotの音声認識を生み出せるかを検討する。
デコーダのファインチューニングなしで、標準ベンチマークにおけるクロスドメインの堅牢性とzero-shot転移を評価する。
多言語・多タスク学習の利点を調査し、分布シフト下での人間の性能と比較する。
堅牢な音声処理の基盤を確立するため、モデルと推論コードを公開する。

提案手法

96言語にわたる転写と翻訳データを含む680,000 hoursの音声で訓練されたエンコーダ-デコーダ Transformer を用いる。
複数のタスク（文字起こし、翻訳、音声活動検知、言語識別）を、特殊トークンを用いた単一のシーケンスツーシーケンス目的として表現する。
機械生成の文字起こしを減らすための前処理を最小限に行い、フィルタリングし、訓練のために音声を30秒チャンクに分割して学習する。
アウトオブディストリビューションな堅牢性を測定するため、さまざまなデータセットでzero-shot設定で評価する。
後のLargeモデルバリアントで、正則化（specAugment、確率的深さ、BPE dropout）を用いて段階的に訓練を改善する。

実験結果

リサーチクエスチョン

RQ1デコーダのファインチューニングなしで、言語やタスクを跨ぐ堅牢なzero-shot音声認識を、大規模な弱監視事前訓練だけで得られるのか？
RQ2多言語・多タスクの事前学習は、監督付きベースラインと比較して、クロスドメインの堅牢性とzero-shot性能にどのような影響を与えるか？
RQ3多様なデータセットにおける堅牢性で、zero-shotのWhisperモデルはどの程度人間の性能に近づくか？
RQ4データ品質フィルタと重複排除がモデルの性能と一般化へ及ぼす影響はどの程度か？
RQ5長文の文字起こしやノイズの多い条件下で、Whisperは専門モデルと比較してどの程度性能を発揮するか？

主な発見

zero-shotのWhisperモデルは、LibriSpeechで訓練された監督付きモデルと比較して、out-of-distribution評価時に複数のデータセットで競争力のあるまたは優れた堅牢性を示す。
平均すると、非LibriSpeechデータセットに対して、類似のLibriSpeech性能を持つ LibriSpeech-trained ベースラインと比較して、zero-shot Whisperは約55.2%のエラーを低減する。
Whisperは、分布シフトやノイズ条件下で特に、いくつかのベンチマークで人間の堅牢性と同等またはそれに近い。
多言語・多タスク前訓練は、言語データ量とzero-shot性能の間に強い相関を示し、データ量が翻訳と認識性能をタスクごとに異なる程度で予測する。
Whisperは、多くのデータセットで商用・オープンソースシステムと競合する堅牢な長文転写能力を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。