QUICK REVIEW

[論文レビュー] Self-Attention Attribution: Interpreting Information Interactions Inside Transformer

Yaru Hao, Li Dong|arXiv (Cornell University)|Apr 23, 2020

Adversarial Robustness in Machine Learning参考文献 41被引用数 23

ひとこと要約

本論文は、BERTのようなTransformerモデル内の情報相互作用を解釈するための、統合勾配に基づくSelf-Attention Attribution (AttAttr) を導入する。この手法は顕著な注意ヘッドを特定し、階層的帰属ツリーを構築して構成的依存関係を可視化し、効果的なヘッドプルーニングを可能にするとともに、モデルの性能を著しく低下させる悪意のあるトリガーを生成し、モデルが不適切なパターンに過剰に依存していることを暴露する。

ABSTRACT

The great success of Transformer-based models benefits from the powerful multi-head self-attention mechanism, which learns token dependencies and encodes contextual information from the input. Prior work strives to attribute model decisions to individual input features with different saliency measures, but they fail to explain how these input features interact with each other to reach predictions. In this paper, we propose a self-attention attribution method to interpret the information interactions inside Transformer. We take BERT as an example to conduct extensive studies. Firstly, we apply self-attention attribution to identify the important attention heads, while others can be pruned with marginal performance degradation. Furthermore, we extract the most salient dependencies in each layer to construct an attribution tree, which reveals the hierarchical interactions inside Transformer. Finally, we show that the attribution results can be used as adversarial patterns to implement non-targeted attacks towards BERT.

研究の動機と目的

Transformerにおける自己注意を通じた入力トークン同士の相互作用の解釈可能性の欠如に対処すること。
個々のトークンの重要性を説明するのではなく、トークン間の構成的相互作用を説明する手法を開発すること。
帰属スコアに基づいて最も影響力のある注意ヘッドを同定することで、性能損失を最小限に抑えた構造的なヘッドプルーニングを可能にすること。
階層的帰属ツリーを構築し、層間を貫る情報の流れを可視化すること。
帰属スコアから悪意のあるパターンを発見・利用し、モデルの耐性をテストすること。

提案手法

最終予測への各注意ヘッドの寄与を計算するため、統合勾配に基づく自己注意帰属手法であるAttAttrを提案する。
注意重みに統合勾配を適用し、モデルの意思決定における各注意接続の重要性を反映する帰属スコアを計算する。
帰属スコアを用いて各層ごとの最も重要な注意ヘッドを同定し、性能損失を最小限に抑えた構造的ヘッドプルーニングを可能にする。
顕著な依存関係を抽出し、層間を貫る階層的情報の流れを可視化する帰属ツリーを構築するためのヒューリスティックなアルゴリズムを開発する。
上位の帰属スコアを活用して悪意のあるトリガー（特定の語のパターン）を抽出し、挿入することでモデルの精度が著しく低下するようにする。
定量的分析を用いて帰属ツリー内のエッジの寄与度を評価するなど、BERTを複数のNLPデータセットで検証する。

実験結果

リサーチクエスチョン

RQ1自己注意メカニズムにおける入力トークン同士の相互作用を、個々のトークンの顕著性を越えてどのように解釈できるか。
RQ2注意重みは、実際のモデル予測への寄与度とどの程度相関しているか。
RQ3帰属スコアを用いて、顕著でない注意ヘッドを識別・プルーニングしても、性能に顕著な低下が生じないか。
RQ4モデルの構成的推論を反映する階層的依存構造（帰属ツリー）を再構築できるか。
RQ5帰属によって特定された顕著な相互作用パターンを用いて、効果的な非標的悪意のある攻撃を設計できるか。

主な発見

MNLIデータセットにおいて、前提文に上位の悪意あるトリガー（‘with’ と ‘math’）を挿入したところ、含意精度が82.87％から0.8％に低下し、モデルの極めて脆弱な状態が示された。
上位3つの悪意あるトリガーは、MNLIおよびSST-2の全クラスにおいて平均精度を40ポイント以上低下させ、モデルが不適切なパターンに過剰に依存していることを示した。
AttAttrに基づく提案されたヘッドプルーニング手法は、テイラー展開法と比較して競争力のある性能を示し、プルーニング後も精度の低下が最小限に抑えられた。
BERTにおける重要な注意ヘッドは、同様のタスクやデータセットにおいて一貫しており、安定した機能的役割を果たしていることがわかった。
AttAttrスコアから構築された帰属ツリーは、階層的情報の流れを明らかにし、層を跨ぐ依存関係の構成方法を示した。
本手法は、注意重みそのものが貢献度の信頼できる指標ではないことを示した。一部の高重み接続は、予測への寄与がほとんどないことが判明した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。