QUICK REVIEW

[論文レビュー] You May Not Need Attention

Ofir Press, Noah A. Smith|arXiv (Cornell University)|Oct 31, 2018

Topic Modeling参考文献 33被引用数 22

ひとこと要約

本論文は、アテンションを用いず、エンコーダとデコーダを1つのアーキテクチャに統合したエンドツーエンドの再帰的ニューラル機械翻訳モデルを提案する。このモデルは、最初のソーストークンを読み込んだ段階でターゲットトークンを生成できるため、低遅延かつ定常メモリ使用量の翻訳を可能にする。モデルは標準のアテンションベースのモデルと同等の性能を発揮し、長文ではそれらを上回り、アテンション機構や別個のエンコーディング/デコーディングモジュールを一切使用せずに競争力のあるBLEUスコアを達成している。

ABSTRACT

In NMT, how far can we get without attention and without separate encoding and decoding? To answer that question, we introduce a recurrent neural translation model that does not use attention and does not have a separate encoder and decoder. Our eager translation model is low-latency, writing target tokens as soon as it reads the first source token, and uses constant memory during decoding. It performs on par with the standard attention-based model of Bahdanau et al. (2014), and better on long sentences.

研究の動機と目的

ニューラル機械翻訳がアテンション機構を用いずに競争力のある性能を達成できるかどうかを調査すること。
別個のエンコーダ・デコーダアーキテクチャを廃止し、統合的で再帰的なシーケンス・トゥ・シーケンスモデルを採用する可能性を評価すること。
最初のソーストークンを処理した段階でターゲットトークンを生成できるようにすることで、低遅延かつ定常メモリ使用量の翻訳を実現すること。
整列済みで「即時実行可能（eager-feasible）」な文のペアを前処理することで、このようなモデルの有効な学習が可能かどうかを検討すること。
提案モデルの性能を標準のアテンションベースのモデルと比較し、特に長文における性能を評価すること。

提案手法

モデルは、各タイムステップで入力と出力の埋め込みを連結することで、ソースとターゲットトークンを統合的に処理する1つのマルチレイヤーLSTMを用いる。
モデルは、ターゲットシーケンスが「即時実行可能（eager feasible）」になるように、最小限のε（空）トークンを挿入することで、ソース語のインデックスがターゲット語の位置に対して非減少になるように前処理されたデータで学習される。
初期パディング用のεトークンをターゲットシーケンスの先頭に追加し、出力を生成する前により多くのソースコンテキストを処理できるようにする。推論時にはビームサーチが使用される。
モデルはソースとターゲットトークンの両方の埋め込み空間を共有し、LSTM出力に対して線形変換を適用して次のターゲット語を予測する。
前処理により、すべての整列済み語のペア（si, tj）に対して、ソースインデックス i ≤ ターゲットインデックス j が保証され、因果的でプレフィックスベースの翻訳が可能になる。
推論時には、各ソーストークンを処理した後に逐次的に予測を出力し、現在の隠れ状態のみを保持することで、定常メモリを使用する。

実験結果

リサーチクエスチョン

RQ1アテンション機構を用いずに、ニューラル機械翻訳モデルが競争力のある性能を達成できるか？
RQ2別個のエンコーダ・デコーダモジュールを排除した統合的で再帰的なアーキテクチャでも、依然として高い翻訳品質が得られるか？
RQ3各ソース入力の後に逐次的にトークンを出力することで、低遅延かつ定常メモリ使用量のリアルタイム翻訳が可能か？
RQ4標準のアテンションベースのモデルと比較して、このモデルの性能はどの程度か、特に長文における性能は？
RQ5εトークンを用いて即時実行可能性を強制する前処理が、学習および推論の効率をどの程度向上させるか？

主な発見

EN→DE翻訳タスクにおいて、5つの初期εトークンを用いた場合、提案モデルは28.47のBLEUスコアを達成し、基準モデルの28.56に非常に近い性能を発揮した。
長文（81トークン以上）では、ベースラインのアテンションモデルを上回り、FR→ENでは27.44のBLEUスコアを記録したのに対し、基準モデルは22.10にとどまった。
DE→ENでも、長文（81以上）では24.73のBLEUスコアを達成し、基準モデルの21.24を上回った。
短文（1〜20トークン）では、基準モデル（26.22）に比べて性能が劣り、FR→ENで23.74のBLEUスコアを示した。これは、短文性能にトレードオフが生じていることを示している。
最大5つの初期εパディングトークンの使用が性能向上に寄与し、EN→DEではBLEUスコアが24.42から28.47に上昇した。これは、初期コンテキストが生成の安定化に寄与していることを示唆している。
デコード中、モデルは常に定常メモリを使用しており、現在の隠れ状態のみを保持している。これに対して、アテンションベースのモデルはすべての隠れ状態を保存する必要がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。