QUICK REVIEW

[論文レビュー] Accelerating Neural Transformer via an Average Attention Network

Biao Zhang, Deyi Xiong|arXiv (Cornell University)|May 2, 2018

Natural Language Processing Techniques参考文献 14被引用数 24

ひとこと要約

本稿では、自己注意機構を置き換えることで、ニューラルTransformerのデコード段階の高速化を図る平均注意ネットワーク（AAN）を提案する。デコーダーにおける自己注意機構を、累積履歴集約用の平均層と表現力向上用のゲーティング層から成る二層構造に置き換える。学習段階ではマスキングを用い、完全並列化を実現。推論段階では動的計画法を適用し、逐次的生成を回避。12のWMT17翻訳タスクにおいて、性能の著しい低下を伴わず4倍以上の高速化を達成する。

ABSTRACT

With parallelizable attention networks, the neural Transformer is very fast to train. However, due to the auto-regressive architecture and self-attention in the decoder, the decoding procedure becomes slow. To alleviate this issue, we propose an average attention network as an alternative to the self-attention network in the decoder of the neural Transformer. The average attention network consists of two layers, with an average layer that models dependencies on previous positions and a gating layer that is stacked over the average layer to enhance the expressiveness of the proposed attention network. We apply this network on the decoder part of the neural Transformer to replace the original target-side self-attention model. With masking tricks and dynamic programming, our model enables the neural Transformer to decode sentences over four times faster than its original version with almost no loss in training time and translation performance. We conduct a series of experiments on WMT17 translation tasks, where on 6 different language pairs, we obtain robust and consistent speed-ups in decoding.

研究の動機と目的

Transformerのデコーダーにおける自己回帰的自己注意機構が原因で生じるデコード速度の遅さを解消すること。
学習効率の高さと優れた性能を維持しつつ、推論速度を著しく向上させること。
長距離依存関係のモデリングを保持しつつ、軽量で並列処理可能な自己注意の代替手法を開発すること。
RNNに似た逐次的処理の利点を享受しつつも、再帰的ボトル neck を回避する、効率的な逐次的デコードを実現すること。

提案手法

平均層（過去の隠れ状態の累積平均を計算）とゲーティング層（表現力の向上）から成る二層構造を持つ平均注意ネットワーク（AAN）を提案する。
学習段階では、自己注意の因果的注意パターンを模倣するためのマスキング技術を用い、完全並列化を実現する。
推論段階では、動的計画法を適用し、逐次的生成を避けて出力を並列に計算する。
Transformerデコーダーのターゲット側自己注意機構をAANに置き換えるが、エンコーダーはそのままである。
標準的なTransformerアーキテクチャに最小限の変更でAANを統合する。

実験結果

リサーチクエスチョン

RQ1自己注意機構を単純な平均ベースの注意機構に置き換えても、翻訳品質に影響を及げないか？
RQ2AANは、学習効率とモデル性能を維持しつつ、どの程度デコードを高速化できるか？
RQ3言語の種類や言語的複雑さ、学習データ量の違いに関わらず、AANは一般化可能か？
RQ4異なるシーケンス長や翻訳方向において、AANの高速化効果は一貫しているか？

主な発見

AANモデルは、WMT17ベンチマークの12のすべての言語ペアにおいて、元のTransformerより4倍以上の高速なデコードを達成した。
En→Tr翻訳タスクでは、1文あたり0.02968秒でデコードが可能であり、元のTransformerの約1/7の時間である。
翻訳性能はほぼ同等で、Transformerと比較してEn→Tr方向でBLEUスコアが0.53ポイント低下にとどまった。
低リソース言語ペア（例：En→Lv や En→Cs）を含め、すべての言語ペアで一貫した高速化が確認され、言語に依存しない利点が示された。
長文に対しても高い性能を維持しており、単純な構造であるにもかかわらず、効果的な長距離依存関係モデリングが可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。