QUICK REVIEW

[論文レビュー] Fastformer: Additive Attention Can Be All You Need

Chuhan Wu, Fangzhao Wu|arXiv (Cornell University)|Aug 20, 2021

Topic Modeling参考文献 27被引用数 78

ひとこと要約

Fastformerは、グローバルな文脈を要約する加法的アテンションと、キーと値との線形時間の相互作用を用いる効率的なTransformer変種を提示し、複雑さを減らしつつ長いシーケンスのモデリングに競争力を持つ性能を実現します。

ABSTRACT

Transformer is a powerful model for text understanding. However, it is inefficient due to its quadratic complexity to input sequence length. Although there are many methods on Transformer acceleration, they are still either inefficient on long sequences or not effective enough. In this paper, we propose Fastformer, which is an efficient Transformer model based on additive attention. In Fastformer, instead of modeling the pair-wise interactions between tokens, we first use additive attention mechanism to model global contexts, and then further transform each token representation based on its interaction with global context representations. In this way, Fastformer can achieve effective context modeling with linear complexity. Extensive experiments on five datasets show that Fastformer is much more efficient than many existing Transformer models and can meanwhile achieve comparable or even better long text modeling performance.

研究の動機と目的

Quadratic self-attentionの複雑さに起因する長いシーケンス用の効率的なTransformerの必要性を動機づける。
Fastformerを提案し、線形時間のコンテキストモデリングを実現する加法アテンションベースのアーキテクチャを提示する。
分類、推奨、要約タスクにおけるFastformerの効率性と競争力のある精度を実証する。
実務展開を導くための相互作用関数とパラメータ共有の分析を提供する。）

提案手法

各アテンションヘッドごとに3つの線形射影を通じて入力埋め込みをQ, K, V に変換する。
加法アテンションでクエリ行列を要約してグローバルなクエリベクトル q を得る。
各キーとの相互作用を要素ごとの積 q * k_i で form p_i とし、加法アテンションで p_i を要約してグローバルキー k を得る。
グローバルキー k と各値との相互作用を要素ごとの積 k * v_i で行い、線形射影で r_i を得る。
変換後の r_i を元のクエリ q に加算して出力を形成する。ヘッドを積み重ね、メモリを削減するためにパラメータを共有することもできる。

実験結果

リサーチクエスチョン

RQ1加法アテンションベースのグローバル文脈モデリングは、シーケンス長とともに直線的にスケールし、性能を維持できるのか。
RQ2グローバルコンテキストと各トークン表現の要素ごとの積による相互作用は、加法/連結アプローチより文脈モデリングを改善するのか。
RQ3Fastformerにおけるパラメータ共有戦略は、速度、メモリ、精度にどのような影響を与えるのか。
RQ4Fastformerは他の効率的なTransformerと比べて、感情・話題分類、ニュース推奨、テキスト要約でどのような性能を示すのか。

主な発見

手法	Amazon 精度	Amazon Macro-F	IMDB 精度	IMDB Macro-F	MIND 精度	MIND Macro-F
Transformer	65.32 ± 0.35	42.31 ± 0.33	52.04 ± 0.50	42.69 ± 0.47	80.90 ± 0.20	60.02 ± 0.21
Longformer	65.45 ± 0.39	42.48 ± 0.44	52.21 ± 0.36	43.36 ± 0.38	81.36 ± 0.21	62.59 ± 0.23
BigBird	66.14 ± 0.42	42.96 ± 0.40	53.23 ± 0.46	44.03 ± 0.44	81.93 ± 0.24	63.58 ± 0.26
Linformer	66.20 ± 0.49	43.13 ± 0.48	53.17 ± 0.59	44.34 ± 0.57	82.16 ± 0.28	63.77 ± 0.30
Linear Transformers	66.12 ± 0.42	43.04 ± 0.44	53.09 ± 0.47	44.30 ± 0.49	82.25 ± 0.23	63.81 ± 0.22
Poolingformer	66.05 ± 0.44	43.00 ± 0.45	53.78 ± 0.51	44.52 ± 0.50	82.46 ± 0.24	64.10 ± 0.26
Fastformer	66.13 ± 0.29	43.23 ± 0.30	54.10 ± 0.42	44.65 ± 0.44	82.34 ± 0.19	63.89 ± 0.20

Fastformerは標準のTransformerの二乗的なO(N^2·d)に対して、線形時間計算量 O(N·d) を達成する。
FastformerはAmazon、IMDB、MINDタスクで、いくつかの効率的なTransformerと比較して競争的または優位な精度とマクロ-Fスコアを達成する。
ニュース推奨では、Fastformerは複数のベースラインを上回り、PLM-NR統合の恩恵を受け、アンサンブルでMINDリーダーボードのトップ結果を達成する。
テキスト要約では、Fastformerは競争力のあるROUGEスコアを示し、しばしば他の線形またはスパースアテンション変種を上回る。
ファインチューニングと推論の面で、元のTransformerと比べて顕著な速度向上を提供しつつ、強い性能を維持する。
要素ごとの積による相互作用の抽象化は、加算/連結よりも豊かな文脈モデリングに有利である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。