QUICK REVIEW

[論文レビュー] Transformer Transducer: A Streamable Speech Recognition Model with Transformer Encoders and RNN-T Loss

Qian Zhang, Lu Han|arXiv (Cornell University)|Feb 7, 2020

Speech Recognition and Synthesis参考文献 24被引用数 27

ひとこと要約

この論文は、RNN-Tアーキテクチャ内のRNNエンコーダーを自己注意ベースのTransformerエンコーダーに置き換えることで、より高速な学習と競争力のある精度を実現するストリーミングエンドツーエンド音声認識モデル、Transformer Transducerを紹介している。限定的な左側のコンテキスト（10フレーム）と中程度の右側コンテキスト（2フレーム）を用いることで、LibriSpeech test-cleanで2.4%という最先端のWERを達成し、遅延と性能のバランスをとっている。

ABSTRACT

In this paper we present an end-to-end speech recognition model with Transformer encoders that can be used in a streaming speech recognition system. Transformer computation blocks based on self-attention are used to encode both audio and label sequences independently. The activations from both audio and label encoders are combined with a feed-forward layer to compute a probability distribution over the label space for every combination of acoustic frame position and label history. This is similar to the Recurrent Neural Network Transducer (RNN-T) model, which uses RNNs for information encoding instead of Transformer encoders. The model is trained with the RNN-T loss well-suited to streaming decoding. We present results on the LibriSpeech dataset showing that limiting the left context for self-attention in the Transformer layers makes decoding computationally tractable for streaming, with only a slight degradation in accuracy. We also show that the full attention version of our model beats the-state-of-the art accuracy on the LibriSpeech benchmarks. Our results also show that we can bridge the gap between full attention and limited attention versions of our model by attending to a limited number of future frames.

研究の動機と目的

リアルタイム推論を可能にしながら高い精度を維持するストリーミング可能なエンドツーエンド音声認識モデルの開発。
RNN-Tフレームワーク内のRNNベースのエンコーダーを、並列化可能な自己注意を活用できるTransformerエンコーダーに置き換え、高速な学習を実現。
自己注意のコンテキストを過去および未来のフレームの固定数に制限することで、ストリーミングにおける計算の tractability（取り扱いやすさ）を確保。
TransformerベースのストリーミングASRシステムにおける認識精度と推論遅延のトレードオフを調査。
自己注意を音声エンコーダーおよびラベルエンコーダーの両方で適切に制限することで、最先端の性能を達成できることを示すこと。

提案手法

音声およびラベルシーケンスを独立して処理する多頭部自己注意を用いたTransformerエンコーダーに、RNN-Tモデル内のRNNエンコーダーを置き換える。
音声エンコーダーの自己注意に因果的マスク（causal masking）を適用し、過去および現在のフレームのみに注目を制限することで、1フレームあたり定数時間の推論を可能にする。
遅延と性能のバランスを図るため、固定された左コンテキスト（例：10フレーム）と、オプションで制限された右コンテキスト（例：2フレーム）を用いる。
音声フレームとラベルシーケンスのすべての可能なアライメントを周辺化する標準のRNN-T損失を用いてモデルを学習。
各時刻における次のラベルを予測するために、音声およびラベルエンコーダー出力の組み合わせに全結合層を適用。
効率性のため、すべてのTransformer層で共有されたマスクを用いるが、将来的な拡張として各層ごとに異なるマスクを用いることも示唆されている。

Fig. 1 : RNN/Transformer Transducer architecture.

実験結果

リサーチクエスチョン

RQ1RNN-TベースのストリーミングASRモデルにおいて、Transformerエンコーダーを効果的に使用できるか、かつ低遅延を維持できるか。
RQ2音声エンコーダーおよびラベルエンコーダーにおける自己注意のコンテキストを制限すると、認識精度と推論速度にどのような影響を与えるか。
RQ3コンテキスト制限付きのTransformerベースのモデルが、LibriSpeechで最先端の性能を達成できるか、かつストリーミング推論に適しているか。
RQ4完全自己注意のTransformer Transducerと、コンテキスト制限付きのストリーミング版との間の性能差はどの程度で、それを埋められるか。
RQ5自己注意に使用する過去および未来のフレーム数が、遅延と精度のトレードオフにどのように影響するか。

主な発見

完全自己注意のTransformer Transducerは、LibriSpeech test-cleanで2.4%という新しい最先端のWERを達成し、test-otherでは5.6%を記録し、既存のモデルを上回った。
音声エンコーダーに10フレームの左コンテキストを用いることで、推論時間計算量が1フレームあたり定数に低下し、実用的なストリーミングが可能になった。全自己注意モデルと比較してtest-cleanではWERが1.2%上昇したにとどまり、性能低下は限定的だった。
1層あたり2フレームの右コンテキストを追加することで、test-cleanのWERは4.2%から3.6%に、test-otherでは11.3%から10.0%に改善され、全自己注意モデルとの差を顕著に縮めた。
ラベルエンコーダーを過去3つのラベル状態に制限しても、20状態を使用した場合と同等の性能を達成でき、ラベルモデリングには最小限の左コンテキストで十分であることが示された。
自己注意の並列性を活かしたため、LSTMベースのRNN-Tモデルと比較して、学習が著しく高速化された。
ストリーミング可能なモデル（10フレームの左コンテキスト）と全自己注意モデルとの性能差は、限定的な未来フレームの注目により埋められる。6フレームの右コンテキストを用いることで、WER差は16%縮小された。

Fig. 2 : Transformer encoder architecture.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。