QUICK REVIEW

[論文レビュー] Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Ching-Feng Yeh, Jay Mahadeokar|arXiv (Cornell University)|Oct 28, 2019

Speech Recognition and Synthesis被引用数 76

ひとこと要約

因果畳み込みと切り捨て自己注意を備えたTransformerベースのニューラルトランスデューサを導入し、ストリーミング対応のエンドツーエンドASRを実現；LibriSpeech上でコンパクトなモデルにも関わらず競争力のあるWERを達成。

ABSTRACT

We explore options to use Transformer networks in neural transducer for end-to-end speech recognition. Transformer networks use self-attention for sequence modeling and comes with advantages in parallel computation and capturing contexts. We propose 1) using VGGNet with causal convolution to incorporate positional information and reduce frame rate for efficient inference 2) using truncated self-attention to enable streaming for Transformer and reduce computational complexity. All experiments are conducted on the public LibriSpeech corpus. The proposed Transformer-Transducer outperforms neural transducer with LSTM/BLSTM networks and achieved word error rates of 6.37 % on the test-clean set and 15.30 % on the test-other set, while remaining streamable, compact with 45.7M parameters for the entire system, and computationally efficient with complexity of O(T), where T is input sequence length.

研究の動機と目的

エンドツーエンドASRのためにニューラルトランスデューサ内でTransformerアーキテクチャを用いる動機付け。
文脈をモデル化しフレームレートを低減するためのエンコーダ強化（因果畳み込みを伴うVGGNet風エンコーダ）を提案。
精度を維持しつつストリーミングを可能にし、複雑さを低減する切り捨て自己注意の導入。
LibriSpeech上で評価し、LSTM/BLSTMベースラインと比較し、精度・待機遅延・モデルサイズのトレードオフを評価。

提案手法

ニューラルトランスデューサ（RNN-T）フレームワーク内でTransformerベースのエンコーダを採用。
VGGNet風の因果畳み込みを組み込み、位置情報を注入しフレームレートを低減（VGG-Transformer）。
切り捨て自己注意を実装し、文脈を制約してストリーミング推論をO(T)の複雑度で実現。
エンコーダ出力とプレディクタ出力を結合してシンボル予測のロジットを生成するジョイナーを使用。
ほぼ同等のパラメータ予算の下で、複数のエンコーダ/プレディクタ構成（LSTMおよびTransformer系）を実験。
SpecAugmentとSentencePieceトークナイゼーションを用いてLibriSpeechで訓練・評価。

実験結果

リサーチクエスチョン

RQ1ニューラルトランスデューサ内のTransformerベースのエンコーダは、エンドツーエンドASRにおいてLSTMベースのエンコーダと同等かそれ以上を達成できるか？
RQ2因果畳み込みは文脈モデル化を改善し、精度を犠牲にすることなくフレームレートを低減できるか？
RQ3切り捨て自己注意はLibriSpeechで競争力のあるWERを維持しつつストリーミング推論を可能にできるか？
RQ4Transformerエンコーダをニューラルトランスデューサの一部として用いた場合の精度・待機遅延・モデルサイズのトレードオフは何か？

主な発見

同一パラメータ予算内で、VGG-Transformerエンコーダを用いたTransformer-TransducerはLSTMベースのエンコーダと比較して高い性能を達成する。
無制限自己注意（非ストリーミング）を備えたTransformerエンコーダはBLSTMベースラインより優れているが、ストリーミングではない。
切り捨て自己注意（L、R設定）により、モデルはストリーミング可能になり、複雑さをO(T)に低減しつつ競争力のあるWERを達成できる。
最適な切り捨て注意設定（L=32, R=4）では、無制限注意の場合に近いWERを得られ、ストリーミングと許容可能なレイテンシを実現。
構成を問わず、提案モデルはLibriSpeechで45.7Mパラメータのシステムとして、test-clean 6.37%、test-other 15.30%のWERを達成。
このアプローチはデバイス上のASRにおいて、精度・待機遅延・サイズのバランスが好ましいことを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。