QUICK REVIEW

[論文レビュー] Efficient Attention: Attention with Linear Complexities

Zhuoran Shen, Mingyuan Zhang|arXiv (Cornell University)|Dec 4, 2018

Advanced Neural Network Applications参考文献 22被引用数 88

ひとこと要約

線形メモリと計算量を伴うドット積注意に数学的に同等な効率的な注意機構を提案し、高解像度かつリソース集約的なタスクを実現するとともに、MS-COCOおよびScene Flowデータセットで改善をもたらす。

ABSTRACT

Dot-product attention has wide applications in computer vision and natural language processing. However, its memory and computational costs grow quadratically with the input size. Such growth prohibits its application on high-resolution inputs. To remedy this drawback, this paper proposes a novel efficient attention mechanism equivalent to dot-product attention but with substantially less memory and computational costs. Its resource efficiency allows more widespread and flexible integration of attention modules into a network, which leads to better accuracies. Empirical evaluations demonstrated the effectiveness of its advantages. Efficient attention modules brought significant performance boosts to object detectors and instance segmenters on MS-COCO 2017. Further, the resource efficiency democratizes attention to complex models, where high costs prohibit the use of dot-product attention. As an exemplar, a model with efficient attention achieved state-of-the-art accuracies for stereo depth estimation on the Scene Flow dataset. Code is available at https://github.com/cmsflash/efficient-attention.

研究の動機と目的

標準のドット積注意の二次コストに伴い、大規模な入力サイズに対するグローバル依存関係のモデリングの必要性を動機づける。
スケーリング正規化の下でドット積注意と同等である、線形のメモリと計算を持つ別の注意定式化を導入する。
efficient attentionがネットワーク内により多くの注意モジュールと高解像度の特徴を統合できることを示す。
リソース制約下で物体検出、インスタンス分割、ステレオ深度推定において著しい性能向上を実証する。

提案手法

QとK'Vを用いてグローバルな文脈を計算するように行列乗算を並べ替え、ドット積注意をリキャストし、線形のメモリと計算を得る。
rho_q(Q) (rho_k(K)^T V) によって efficient attention E(Q,K,V) を定義し、rho_qとrho_kを正規化関数（スケーリングまたはsoftmax）として用いる。
スケーリング正規化を用いた場合の同値性を証明する：E(Q,K,V) = D(Q,K,V) 。
視覚データ向けの実装詳細を、入力を平坦化し、残差結合とともにこの機構を適用する形で提供する。
Kを d_k テンプレート注意マップとして捉え、全体文脈ベクトルを形成し、各位置でQの係数がそれらを組み合わせるという解釈を提示する。

実験結果

リサーチクエスチョン

RQ1efficient attentionはリソース使用を削減しつつ、標準のドット積注意と同等の表現力を達成できるか？
RQ2正規化の選択（スケーリング vs. softmax）は同値性と精度にどう影響するか？
RQ3高解像度のビジョンモデルにefficient attentionを統合する際の、メモリ・計算・精度の実用的な利得は何か？

主な発見

Efficient attentionはスケーリング正規化の下でドット積注意と一致し、softmaxではそれに近似しつつ経験的な精度を保持する。
メモリと計算量は入力サイズに対して線形にスケールし、従来のドット積注意の二次に対して、高解像度の使用を可能にする。
MS-COCOでは、efficient attentionは優れた性能-コストのトレードオフをもたらし、非局所モジュールが失敗するメモリ制約の配置を可能にする。
Efficient attentionはステレオ深度推定（Scene Flow）で強力な利得をもたらし、非局所バリアントよりはるかに少ないメモリで最先端を達成する。
アブレーション研究は、正規化手法とキーの次元が性能に与える影響を限定的であることを示し、リソース節約設定を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。