[論文レビュー] Squeezeformer: An Efficient Transformer for Automatic Speech Recognition
SqueezeformerはConformerを再設計し、Temporal U-Netマクロアーキテクチャと単純化されたマイクロアーキテクチャを採用することで、外部LMなしでLibriSpeech test-otherにおける最先端のWERを、同等のFLOPsで達成します。
The recently proposed Conformer model has become the de facto backbone model for various downstream speech tasks based on its hybrid attention-convolution architecture that captures both local and global features. However, through a series of systematic studies, we find that the Conformer architecture's design choices are not optimal. After re-examining the design choices for both the macro and micro-architecture of Conformer, we propose Squeezeformer which consistently outperforms the state-of-the-art ASR models under the same training schemes. In particular, for the macro-architecture, Squeezeformer incorporates (i) the Temporal U-Net structure which reduces the cost of the multi-head attention modules on long sequences, and (ii) a simpler block structure of multi-head attention or convolution modules followed up by feed-forward module instead of the Macaron structure proposed in Conformer. Furthermore, for the micro-architecture, Squeezeformer (i) simplifies the activations in the convolutional block, (ii) removes redundant Layer Normalization operations, and (iii) incorporates an efficient depthwise down-sampling layer to efficiently sub-sample the input signal. Squeezeformer achieves state-of-the-art results of 7.5%, 6.5%, and 6.0% word-error-rate (WER) on LibriSpeech test-other without external language models, which are 3.1%, 1.4%, and 0.6% better than Conformer-CTC with the same number of FLOPs. Our code is open-sourced and available online.
研究の動機と目的
- エンドツーエンドASRにおける効率と精度の向上を通じてConformerを超える動機付け。
- 計算量を削減し性能を向上させるために、マクロおよびマイクロアーキテクチャの選択を体系的に検討する。
- ASRのためのより単純で高効率なハイブリッドアテンション-畳み込みバックボーンを提案する。
- 外部言語モデルを用いず、モデルサイズとFLOPsに対してスケーラブルな性能を示す。
提案手法
- エンコーダ内で表現をダウンサンプリングし、後にアップサンプリングするTemporal U-Netを導入する。
- Macaron設計と連続したMHA/畳み込みの順序を廃止し、Transformer風のMF/CFブロック構造を採用する。
- 畳み込みモジュール内のGLUをSwishに置換して活性化を統一する。
- 冗長なpre-LNを学習可能なスケーリング層とpost-LNに置換し、推論時のゼロコスト融合を可能にする。
- 初期のサブサンプリング畳み込みを深さ方向分離可能サブサンプリング層に置換し、FLOPsを削減する。
- 同一の訓練設定の下で、外部LMを用いず、複数のモデルサイズ(XS, S, SM, M, ML, L)を訓練・比較する。
実験結果
リサーチクエスチョン
- RQ1ASRにおいてConformer風の設計選択を精度を損なうことなく単純化できるか?
- RQ2注意機構コストを削減し安定性を向上させるようなマクロアーキテクチャの変更(時間的ダウンサンプリングなど)は何か?
- RQ3活性化・正規化・サブサンプリングなどのマイクロアーキテクチャの改良が、WERと効率をどのように改善するか?
- RQ4Squeezeformerの派生が、同程度のFLOPsで一貫してConformerや他のベースラインを上回るか?
主な発見
- Squeezeformerは LibriSpeech test-other で外部 LMs なしの WER が 7.5%、6.5%、6.0% を達成し、同じ FLOPs での Conformer-CTC を 1.4–3.1% WER 上回る。
- Temporal U-Netダウンサンプリングは注意計算を削減し安定性を改善し、注意のFLOPsを最大で2.31–2.53×削減し、WERも改善。
- 統一されたSwish活性化とスケール済みポスト-LNは、トレーニングの安定性と test-other の WERを各バリアントで約0.2–0.7%改善。
- 深さ方向分離可能サブサンプリングは FLOPs を著しく削減(サブサンプリングで最大約28%)し、WERの損失なしにスループットを最大1.34×向上。
- Squeezeformer-SMおよびSqueezeformer-Mは、比較可能なFLOPsとスケールにおいてConformerベースラインを上回り、いくつかの設定で最先端の結果を達成。
- アブレーション研究は、Temporal U-Netのスキップ接続、学習可能なスケーリング層、Swish活性化が最適な性能に必須であることを確認。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。