QUICK REVIEW

[論文レビュー] Listen and Fill in the Missing Letters: Non-Autoregressive Transformer for Speech Recognition

Nanxin Chen, Shinji Watanabe|arXiv (Cornell University)|Nov 10, 2019

Speech Recognition and Synthesis参考文献 23被引用数 53

ひとこと要約

論文はASRのための2つの非自己回帰トランスフォーマーフレームワーク（A-CMLMとA-FMLM）を提案し、並列デコードを可能にし、MandarinとJapaneseのベンチマークで autoregressive transformer の性能に匹敵しつつ最大7xの実時間速度アップを達成。

ABSTRACT

Recently very deep transformers have outperformed conventional bi-directional long short-term memory networks by a large margin in speech recognition. However, to put it into production usage, inference computation cost is still a serious concern in real scenarios. In this paper, we study two different non-autoregressive transformer structure for automatic speech recognition (ASR): A-CMLM and A-FMLM. During training, for both frameworks, input tokens fed to the decoder are randomly replaced by special mask tokens. The network is required to predict the tokens corresponding to those mask tokens by taking both unmasked context and input speech into consideration. During inference, we start from all mask tokens and the network iteratively predicts missing tokens based on partial results. We show that this framework can support different decoding strategies, including traditional left-to-right. A new decoding strategy is proposed as an example, which starts from the easiest predictions to the most difficult ones. Results on Mandarin (Aishell) and Japanese (CSJ) ASR benchmarks show the possibility to train such a non-autoregressive network for ASR. Especially in Aishell, the proposed method outperformed the Kaldi ASR system and it matches the performance of the state-of-the-art autoregressive transformer with 7x speedup. Pretrained models and code will be made available after publication.

研究の動機と目的

トランスフォーマーベースのASRにおけるデコード待機時間の削減を、精度を犠牲にせず実現する動機づけ。
音声入力へマスクド言語モデルのアイデアを適用し、非自己回帰デコードを実現する。
訓練と推論のギャップを埋めるための戦略を探る（A-CMLM、A-FMLM、easy first、mask-predict）
Mandarin（AIShell）とJapanese（CSJ）で性能と高速化を評価して、性能と速度の関係を評価。

提案手法

2つの非自己回帰トランスフォーマーフレームワークを導入：Audio-Conditional Masked Language Model (A-CMLM) および Audio-Factorized Masked Language Model (A-FMLM)。
デコーダーの履歴をマスク済みトークンに置き換え、文脈を持つ入力音声を用いてマスク位置を予測する。
A-CMLMでは、未マスクトークンと音声特徴量を用いて、条件付き積の独立性仮定の下、並列に全マスクトークンを予測。
A-FMLMでは、訓練と推論のミスマッチを軽減するため、漸進的デコードステップ（Z_tセット）と反復ごとの分解目的を採用。
デコード戦略を提案：easy firstとmask-predict、バリアントの定式化と反復による洗練を含む。
EOSを用いた長さ処理および訓練時の反復回数（N=2）など、実践的な訓練/デコードの詳細を報告。
Benchmark設定はESPnet、Transformerベースラインを使用し、適用可能な場合Kaldi系と比較。

実験結果

リサーチクエスチョン

RQ1非自己回帰トランスフォーマーを音声入力を条件にマスク予測を行うことでASRに効果的に訓練できるか？
RQ2A-CMLMとA-FMLMは自己回帰トランスフォーマーと比較して、競争力のある精度と顕著なデコード速度アップを提供するか？
RQ3デコード戦略（easy first、mask-predict）はMandarinおよびJapaneseのASRにおいて、精度と速度のバランスを最も上手く取れるのはどれか？
RQ4非自己回帰ASRは逐次長さにどうスケールし、長いシーケンスに対する緩和策は何か？

主な発見

System	Dev CER	Test CER	Real Time Factor
Baseline(Transformer)	6.0	6.7	1.44
Baseline(Kaldi nnet3)	-	8.6	-
Baseline(Kaldi chain)	-	7.5	-
An et al. (2019)	-	6.3	-
Fan et al. (2019)	-	6.7	-
Easy first(K=1)	6.8	7.6	0.22
Easy first(K=3)	6.4	7.1	0.22
Mask-predict(K=1)	6.8	7.6	0.22
Mask-predict(K=3)	6.4	7.2	0.24
A-FMLM(K=1)	6.2	6.7	0.28
A-FMLM(K=2)	6.2	6.8	0.22

A-FMLMはAIShellで最大7xの実時間速度アップを達成し、自己回帰ベースラインと同等の性能を発揮。
A-CMLMはAIShellで数回の反復を超えると限られた利点を示す一方、A-FMLMの単一反復設定で既に強力な結果を提供。
AIShellでは、いくつかの非自己回帰バリアントが自己回帰トランスフォーマーにCERでほぼ匹敵しつつ大幅な速度アップを達成。
CSJではA-FMLMがA-CMLMおよび自己回帰ベースラインをいくつかの設定で上回り、顕著なCER削減と速度アップを達成。
長い発話は非自己回帰モデルで削除エラーと置換エラーが高くなることを示し、挿入ベースのアプローチの限界と機会を示唆。
非自己回帰デコードは左から右へ、easy first、mask-predictなど複数の戦略をサポートし、推論の柔軟性を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。