[論文レビュー] Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo Labelling
Distil-Whisper は Whisper を大規模な擬似ラベリングとKL/PL損失を用いて蒸留し、エンコーダを凍結することで、より小さく高速なASRモデルを作成し、OODでの堅牢性と幻覚(hallucinations)の低減を実現します。
As the size of pre-trained speech recognition models increases, running these large models in low-latency or resource-constrained environments becomes challenging. In this work, we leverage pseudo-labelling to assemble a large-scale open-source dataset which we use to distill the Whisper model into a smaller variant, called Distil-Whisper. Using a simple word error rate (WER) heuristic, we select only the highest quality pseudo-labels for training. The distilled model is 5.8 times faster with 51% fewer parameters, while performing to within 1% WER on out-of-distribution test data in a zero-shot transfer setting. Distil-Whisper maintains the robustness of the Whisper model to difficult acoustic conditions, while being less prone to hallucination errors on long-form audio. Distil-Whisper is designed to be paired with Whisper for speculative decoding, yielding a 2 times speed-up while mathematically ensuring the same outputs as the original model. To facilitate further research in this domain, we make our training code, inference code and models publicly accessible.
研究の動機と目的
- 多様な音響条件に対する堅牢性を損なうことなく、低遅延のデプロイメントのために大規模なSeq2Seq ASRモデルの圧縮を促す。
- 擬似ラベルと教師の予測を組み合わせて小型の学生モデルを訓練する蒸留フレームワークを開発する。
- 蒸留モデルが複数のドメインとノイズ条件に対する堅牢性を保持することを保証し、ゼロショットOODシナリオを含む。
- 推測的デコーディングと長文転写戦略を活用して、出力を維持しつつ推論速度をさらに向上させる。
提案手法
- Whisper のエンコーダをコピーして、訓練中に凍結することで、学生モデルに小さなデコーダを訓練する。
- KL発散と擬似ラベル損失の加重和を用いて教師から生徒へ知識を伝達する(L_KL および L_PL、alpha_KL=0.8、alpha_PL=1.0)。
- Whisper large-v2 を用いて大規模かつマルチドメインのデータセットの擬似ラベルを生成し、WER ベースの閾値でフィルタリングしてラベル品質を向上させる(λはバリデーションで調整)。
- 教師からデコーダの最初と最後の層を取り出して学生デコーダを初期化する(層ベースの圧縮)。
- 短文および長文のASRタスク(OODデータを含む)で評価し、堅牢性と遅延を評価する。
- 推論を加速するためにチャンク化された長文転写と推測的デコードを採用し、主モデルの出力を変更せずに Distil-Whisper を補助として利用する。
実験結果
リサーチクエスチョン
- RQ1大規模な擬似ラベリングは、Seq2Seq ASR の知識蒸留を大きな性能低下を生じさせずに効果的に実現できるか。
- RQ2Distil-Whisper は OOD 設定で Whisper の多様な音響条件やノイズへの堅牢性を保持するか?
- RQ3エンコーダを固定したまま Whisper を 2 層デコーダに圧縮した場合のレイテンシと精度のトレードオフは何か?
- RQ4蒸留済みアシスタントを用いた推測的デコードは、出力を変更せずに信頼できる速度向上をもたらすか?
主な発見
- Distil-Whisper は 5.8 倍の推論速度、パラメータを 51% 減らし、ゼロショット転移における OOD テストデータで元の Whisper の WER に対して 1% 未満で達成。
- 蒸留モデルは厳しい音響条件とノイズに対して堅牢性を維持し、複数の ID および OOD データセットで Whisper と比較して有効な堅牢性を競合的に示す。
- 長文評価では、Distil-Whisper は平均で Whisper より 0.1% WER 地上を上回り、幻覚関連のエラー(挿入率が低い)をオリジナルモデルより少なく示す。
- Distil-Whisper をアシスタントとして用いた推測的デコードは、出力を保持しつつ約 2x の速度向上(またはそれ以上)をもたらすが、パラメータの増加はわずか。
- データセットサイズを増やすと ID/OOD WER は一定の点まで改善され、約 13.9k 時間の擬似ラベルデータを超えると利益が減少する;エンコーダを共有することが類似のノイズ堅牢性に寄与します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。