Skip to main content
QUICK REVIEW

[論文レビュー] LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity

Walid Bousselham, Angie Boggust|arXiv (Cornell University)|Apr 4, 2024
Explainable Artificial Intelligence (XAI)被引用数 6
ひとこと要約

LeGrad は Vision Transformers の layerwise gradient ベースの説明可能性手法を導入し、層ごとの attention マップに対する勾配信号を集約して頑健でオープンボキャブラリ対応かつ摂動に強い局在マップを生成します。 ViT バックボーン全体で segmentation、open-vocabulary detection、および robustness ベンチマークで SOTA メソッドを上回ります。

ABSTRACT

Vision Transformers (ViTs), with their ability to model long-range dependencies through self-attention mechanisms, have become a standard architecture in computer vision. However, the interpretability of these models remains a challenge. To address this, we propose LeGrad, an explainability method specifically designed for ViTs. LeGrad computes the gradient with respect to the attention maps of ViT layers, considering the gradient itself as the explainability signal. We aggregate the signal over all layers, combining the activations of the last as well as intermediate tokens to produce the merged explainability map. This makes LeGrad a conceptually simple and an easy-to-implement tool for enhancing the transparency of ViTs. We evaluate LeGrad in challenging segmentation, perturbation, and open-vocabulary settings, showcasing its versatility compared to other SotA explainability methods demonstrating its superior spatial fidelity and robustness to perturbations. A demo and the code is available at https://github.com/WalBouss/LeGrad.

研究の動機と目的

  • Vision Transformers (ViTs) の解釈性ギャップを勾配ベースの説明可能性手法を ViT の attention マップに結びつけることで解消する。
  • layerwise gradients を活用して複数の ViT レイヤーにおける特徴形成を捉え、それを単一の説明可能性マップに集約する。
  • segmentation、open-vocabulary detection、perturbation evaluations で diverse ViT backbones 上で LeGrad の有効性を示す。
  • LeGrad が非常に大規模な ViTs へスケールし、異なる特徴集約戦略へ適応することを示す。
  • ハイパーパラメータ不要、モデルアグノスティックなツールを提供し、トレーニングやファインチューニングの localization annotations を必要としない。

提案手法

  • 各層の ViT attention maps に対するターゲットクラス活性化の勾配を計算。
  • 集約前に negative contributions をクリップするために ReLU を適用。
  • 全層の layerwise 説明信号を平均化し、2D ヒートマップへ reshape。
  • self-attention map の代わりに pooler の attention map を用いて attentional poolers に method を適応。
  • segmentation (ImageNet-Seg), open-vocabulary detection (OpenImagesV7), perturbation tests (ImageNet-val) で評価。
  • 様々な ViT バックボーン (ViT-B/16 から ViT-BigG/14) および集約スキームと互換性を示す。
Figure 1 : LeGrad explainability maps: For a given vision-language model and a textual prompt, LeGrad generates a heatmap indicating the part of the image that is most sensitive to that prompt. LeGrad performs equally well across a large range of model sizes, ranging from ViT-B/16(150M params.) to V
Figure 1 : LeGrad explainability maps: For a given vision-language model and a textual prompt, LeGrad generates a heatmap indicating the part of the image that is most sensitive to that prompt. LeGrad performs equally well across a large range of model sizes, ranging from ViT-B/16(150M params.) to V

実験結果

リサーチクエスチョン

  • RQ1LeGrad は ViT attention maps に対する勾配を計算することで model decisions を image regions に忠実に割り当てることができるか?
  • RQ2層を跨いだ層別信号を pooling することは層専用マップと比較して ViTs の説明可能性を向上させるか?
  • RQ3異なる ViT バックボーン across segmentation open-vocabulary localization perturbation-based evaluations で LeGrad はどう機能するか?
  • RQ4LeGrad は非常に大規模な ViTs へスケールし、異なる特徴集約法へ適応可能か?
  • RQ5訓練中 localization annotations なしで LeGrad は性能を維持するか?

主な発見

MethodPixel Acc.mIoUmAP
LRP52.8133.5754.37
Partial-LRP61.4940.7172.29
rollout60.6340.6474.47
Raw attention65.6743.8376.05
GradCAM70.2744.5070.30
CheferCAM69.2147.4778.29
TextSpan73.0140.2681.4
LeGrad77.5258.6682.49
  • LeGrad は ImageNet-Seg で CLIP ViT-B/16 を用いて高い mIoU (58.66) とピクセル精度 (77.52) を達成。
  • OpenImagesV7 open-vocabulary segmentation で LeGrad はすべての SOTA 手法を上回り、モデルサイズごとに substantial gains を得た。
  • LeGrad の摂動ベースの評価は negative および positive perturbations の下で強い性能を示し、しばしば勾配ベース・attentionベースのベースラインを上回る。
  • LeGrad は ViT-BigG/14 (2.5B パラメータ) へスケールし、異なる pooling 戦略でも有効であり続ける。
  • SigLIP-B/16 で open-vocabulary localization の p-mIoU の顕著な改善を達成。
  • Qualitative analyses は LeGrad の説明が関連する物体に焦点を当て、ノイズの多い背景アーティファクトを抑制することを示す。
Figure 2 : Overview of LeGrad: Given a text prompt or a classifier $\mathcal{C}$ , for each layer $l$ , an activation $s^{l}$ is computed and used to compute the explainability of that layer. The layerwise explainability maps are then merged to produce LeGrad’s output.
Figure 2 : Overview of LeGrad: Given a text prompt or a classifier $\mathcal{C}$ , for each layer $l$ , an activation $s^{l}$ is computed and used to compute the explainability of that layer. The layerwise explainability maps are then merged to produce LeGrad’s output.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。