QUICK REVIEW

[論文レビュー] A Neural Transducer

Navdeep Jaitly, David Sussillo|arXiv (Cornell University)|Nov 16, 2015

Neural Networks and Applications参考文献 26被引用数 36

ひとこと要約

この論文では、部分的な入力シーケンスと以前に生成された出力を条件として用いることで、インクリメンタルでオンライン予測を可能にする、ニューラルトランサクタというsequence-to-sequenceモデルを紹介する。標準的なsequence-to-sequenceモデルとは異なり、ブロック間で再帰状態を保持するトランサクタRNNを用いて、リアルタイムで可変長の出力チャンクを生成する。TIMITでは19.8%の発音誤り率を達成し、アテンションを用いない状態でも最先端水準に近い性能を発揮する。

ABSTRACT

Sequence-to-sequence models have achieved impressive results on various tasks. However, they are unsuitable for tasks that require incremental predictions to be made as more data arrives or tasks that have long input sequences and output sequences. This is because they generate an output sequence conditioned on an entire input sequence. In this paper, we present a Neural Transducer that can make incremental predictions as more input arrives, without redoing the entire computation. Unlike sequence-to-sequence models, the Neural Transducer computes the next-step distribution conditioned on the partially observed input sequence and the partially generated sequence. At each time step, the transducer can decide to emit zero to many output symbols. The data can be processed using an encoder and presented as input to the transducer. The discrete decision to emit a symbol at every time step makes it difficult to learn with conventional backpropagation. It is however possible to train the transducer by using a dynamic programming algorithm to generate target discrete decisions. Our experiments show that the Neural Transducer works well in settings where it is required to produce output predictions as data come in. We also find that the Neural Transducer performs well for long sequences even when attention mechanisms are not used.

研究の動機と目的

完全な入力が得られるまで出力を生成できないというsequence-to-sequenceモデルの制限を解消すること、特に音声認識やオンライン翻訳のようなリアルタイム応用において。
入力データの到着に応じて出力を段階的に生成できるようにし、全シーケンスを再処理する必要がないようにすること。
推論時に明示的なアライメントが存在しないにもかかわらず、離散的な出力決定を微分可能に扱える学習手法を開発すること。
自己アテンション機構を用いない状態でも、長時間系列データに対して優れた性能を発揮できることを示すこと、特にブロックワイズな再帰性が有効に機能することを示すこと。

提案手法

モデルは二本のスティームアーキテクチャを採用：エンコーダーが入力ブロックを処理し、トランサクタRNNがエンコーダーの特徴量と自身の再帰的隠れ状態に基づいて出力記号を生成する。
各時刻において、トランサクタは0個以上の出力記号を出力するかどうかを決定するため、各ブロックごとに可変長の出力生成が可能になる。
学習中に近似最良アライメントを計算するために動的計画法アルゴリズムを用い、離散的決定を逆誤差伝搬可能にしている。
再帰状態をブロック間で維持することで、トランサクタが入力セグメント全体にわたる長距離依存関係や文脈を保持できる。
学習目的関数は、動的計画法により導かれるアライメント近似を用いて、入力ブロックが与えられたもとでの予測出力シーケンスの尤度を最大化する。
モデルはTIMIT発音認識タスクで単方向LSTMとブロックワイズ処理を用いて評価され、ブロックサイズ、深さ、アテンションの有無に関するアブレーションスタディが実施された。

実験結果

リサーチクエスチョン

RQ1入力シーケンスの全量が到着する前に、入力が到着する度に出力を段階的に生成できるsequence-to-sequenceモデルは構築可能か？
RQ2標準的な誤差逆伝搬法が直接適用できない状況において、離散的出力決定を効果的に学習するにはどうすればよいか？
RQ3入力ブロック間で再帰状態を維持することで、非再帰的ブロック処理に比べ、長時間系列データに対する性能が向上するか？
RQ4自己アテンション機構を用いない状態でも、発音認識のような長時間系列タスクで競争力のある性能を発揮できるか？
RQ5モデルの性能はブロックサイズやアーキテクチャの深さにどれほど敏感か？

主な発見

三層の単方向LSTMエンコーダーとトランサクタを用いた場合、TIMITテストセットで19.8%の発音誤り率（PER）を達成した。これは最先端水準に近い結果である。
GMM-HMMシステムから得た高品質なアライメントで学習させた場合、19.8%のPERに到達し、適切な教師信号のもとで優れた性能を発揮することを示した。
トランサクタの再帰状態をブロック間で維持することで、ブロックサイズ15フレームの条件下でPERが34.3%から20.6%に低下した。これは文脈保持の重要性を示している。
アテンションを用いない場合、最適なブロックサイズW=8で競争力ある結果が得られ、アテンションを導入するとブロックサイズに依存しなくなる傾向が見られた。
モデルは長時間系列に対して優れた性能を発揮し、

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。