QUICK REVIEW

[論文レビュー] An Empirical Study of Spatial Attention Mechanisms in Deep Networks

Xizhou Zhu, Dazhi Cheng|arXiv (Cornell University)|Apr 11, 2019

Advanced Neural Network Applications参考文献 50被引用数 102

ひとこと要約

この論文は、Transformerの自己注意・エンコーダ-デコーダ注意における空間注意機構を、自己注意・エンコーダ-デコーダ注意でのクエリ内容因子とキ―内容因子の役割を明らかにする包括的なアブレーション研究を通して検証し、意外な役割を明らかにする。

ABSTRACT

Attention mechanisms have become a popular component in deep neural networks, yet there has been little examination of how different influencing factors and methods for computing attention from these factors affect performance. Toward a better general understanding of attention mechanisms, we present an empirical study that ablates various spatial attention elements within a generalized attention formulation, encompassing the dominant Transformer attention as well as the prevalent deformable convolution and dynamic convolution modules. Conducted on a variety of applications, the study yields significant findings about spatial attention in deep networks, some of which run counter to conventional understanding. For example, we find that the query and key content comparison in Transformer attention is negligible for self-attention, but vital for encoder-decoder attention. A proper combination of deformable convolution with key content only saliency achieves the best accuracy-efficiency tradeoff in self-attention. Our results suggest that there exists much room for improvement in the design of attention mechanisms.

研究の動機と目的

異なる注意因子（クエリ内容、キ―内容、相対位置）がNLPとビジョンタスクの性能にどのように影響するかを明らかにする。
Transformer注意、可形畳み込み、および動的畳み込みを一般化された空間注意フレームワークの下で統合する。
自己注意とエンコーダ-デコーダ注意で重要な注意成分を特定する。
物体検出、セマンティックセグメンテーション、ニューラル機械翻訳における注意モジュールの精度-効率トレードオフを評価する。

提案手法

Transformer注意、通常/可形畳み込み、動的畳み込みを包含する一般化された多头注意の定式化を提案する（式1）。
Transformer注意を、クエリ内容、クエリ内容と相対位置、キ―内容、相対位置の4項（E1–E4）に分解する。
βパラメータを介して項を選択的に有効化することで、性能と効率への影響を研究するアブレーションを行う（式8）。
検出とセグメンテーションのバックボーンに注意モジュールを組み込み、TransformerベースのNMTモデルにも組み込んで、タスク間での精度とFLOPsを比較する。
統一されたフレームワーク内での因子使用を合わせることにより、可形畳み込みと動的畳み込みをTransformer注意と対比する。
標準ベンチマークを使用する：物体検出はCOCO、セマンティックセグメンテーションはCityscapes、NMTはWMT14英独。

実験結果

リサーチクエスチョン

RQ1自己注意とエンコーダ-デコーダ注意で、それぞれの注意因子（クエリ内容、キ―内容、相対位置）の影響はどの程度測定されるのか？
RQ2視覚タスクにおいて、可形畳み込みまたは動的畳み込みは標準のTransformer注意よりも高い精度-効率のトレードオフを達成できるのか？
RQ3自己注意において、クエリ内容とキ―内容だけでなく、キー内容の顕著さを併用することは精度と効率にどのように影響するか？
RQ4非クエリ感度の注意項（キ―内容、相対位置）は、特定の設定で高性能のために必須か？
RQ5NLPとビジョン applicationsにわたる空間注意機構設計の一般的な指針は何か？

主な発見

Transformer注意において、クエリ感受性のある項（特にクエリ内容とキ―内容）は自己注意では重要度が低いが、エンコーダ-デコーダ注意では重要である。
可形畳み込みをキ―内容のみの項と組み合わせると、自己注意における最良の精度-効率トレードオフが得られる。
自己注意では、クエリ内容と相対位置の要因とキ―内容のみの要因が最も重要であり、異なる項配置を評価すると選択的な項の使用で大きな性能向上が見られる。
クエリ感受性のみの項を用いたモジュールでも、クエリ非感受性の項を使用するモジュールと同等程度の性能を示すことがあり、自己注意の設計上の問題が intrinsic properties ではないことを示唆する。
可形畳み込みはクエリ内容と相対位置を活用して効果的に機能し、キー内容の手掛かりと組み合わせると、画像認識においてTransformer注意を上回る可能性がある。
全体として、本研究は従来のクエリ中心的な直感を超えた空間注意設計にはまだ大きな改良余地があることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。