[論文レビュー] XAI for Transformers: Better Explanations through Conservative Propagation
論文はLayer-wise Relevance Propagation (LRP) をTransformerへ拡張し、注意ヘッドと LayerNorm の保守的伝播ルールを導入して勾配ベースの方法の保守性の不具合を解決し、NLP、視覚、グラフの領域で最先端の説明性能を達成している。
Transformers have become an important workhorse of machine learning, with numerous applications. This necessitates the development of reliable methods for increasing their transparency. Multiple interpretability methods, often based on gradient information, have been proposed. We show that the gradient in a Transformer reflects the function only locally, and thus fails to reliably identify the contribution of input features to the prediction. We identify Attention Heads and LayerNorm as main reasons for such unreliable explanations and propose a more stable way for propagation through these layers. Our proposal, which can be seen as a proper extension of the well-established LRP method to Transformers, is shown both theoretically and empirically to overcome the deficiency of a simple gradient-based approach, and achieves state-of-the-art explanation performance on a broad range of Transformer models and datasets.
研究の動機と目的
- Transformer モデルの複雑さと公正性の懸念ゆえに explainable AI の必要性を動機づける。
- Transformer に適用した勾配ベースの説明の保守性の特性を分析する。
- 注意ヘッドと LayerNorm に対して理論的に根拠づけられた、保守的に伝播する LRP ルールを開発する。
- NLP、視覚、グラフのタスクを強力なベースラインと比較して提案手法を実証的に検証する。
提案手法
- Layer-wise Relevance Propagation (LRP) の形式に Gradient × Input (GI) の説明を組み込み、Transformer モジュール間の保守性を評価する。
- 保守性の破綻の主要な源として Attention Heads と LayerNorm を同定する。
- Attention Heads (AH-ルール) と LayerNorm (LN-ルール) の保守的な LRP ルールを、ゲート/リスケーリング項を定数 (detach) と見なして線形層 LRP ルールを適用することで導出する。
- 実装を容易にするトリックを提供する:y_j = sum_i x_i [p_ij].detach() で説明を計算し、y_i = (x_i - E[x]) / [sqrt(epsilon+Var[x])] .detach()、次に GI を実行して説明を得る。
- これらの AH および LN ルールが保守性を保持し、複数のデータセットで GI よりも実証的な説明品質をもたらすことを示す。
実験結果
リサーチクエスチョン
- RQ1勾配ベースの説明を Transformer アーキテクチャで保守的にして、予測を忠実に帰属させることはできるのか。
- RQ2GI の保守性を破壊する Transformer の構成要素はどれで、伝播ルールをどのように修正すればそれに対処できるのか。
- RQ3Attention Heads と LayerNorm の保守的 LRP ルールは、NLP、視覚、グラフタスク全体で質的および量的な説明品質を改善するのか。
- RQ4提案手法は標準ベンチマーク上で最先端の Transformer 説明法と比較してどのように劣らず、場合によっては上回るのか。
主な発見
- GI の保守性は Transformer で崩れ、特に注意ヘッドと LayerNorm が原因となる。
- AH ルールと LN ルールを用いた LRP は保守性を維持し、実験で GI よりも忠実な帰属を示した。
- LRP(AH+LN) は NLP および グラフデータセット全体で AUAC (activation) および AU-MSE (pruning) の最良を一貫して達成し、GI やいくつかのベースラインを上回る。
- LRP (AH) および LRP (AH+LN) の定性的な説明は、顕著なトークンや超ピクセルに焦点を当て、エンティティへの不正な強調を減らす。
- この手法は Transformer および Graphormer モデルでスケールし、摂動ベースや注意のみの手法と比較して計算効率が保たれる。
- このアプローチは、Sentiment モデルのバイアス分析(例: SST-2 の DistilBERT)を性別名やエンティティへの帰属で実現し、カウンターファクチュアルを生成せずに実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。