[論文レビュー] LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity
LeGrad は Vision Transformers の layerwise gradient ベースの説明可能性手法を導入し、層ごとの attention マップに対する勾配信号を集約して頑健でオープンボキャブラリ対応かつ摂動に強い局在マップを生成します。 ViT バックボーン全体で segmentation、open-vocabulary detection、および robustness ベンチマークで SOTA メソッドを上回ります。
Vision Transformers (ViTs), with their ability to model long-range dependencies through self-attention mechanisms, have become a standard architecture in computer vision. However, the interpretability of these models remains a challenge. To address this, we propose LeGrad, an explainability method specifically designed for ViTs. LeGrad computes the gradient with respect to the attention maps of ViT layers, considering the gradient itself as the explainability signal. We aggregate the signal over all layers, combining the activations of the last as well as intermediate tokens to produce the merged explainability map. This makes LeGrad a conceptually simple and an easy-to-implement tool for enhancing the transparency of ViTs. We evaluate LeGrad in challenging segmentation, perturbation, and open-vocabulary settings, showcasing its versatility compared to other SotA explainability methods demonstrating its superior spatial fidelity and robustness to perturbations. A demo and the code is available at https://github.com/WalBouss/LeGrad.
研究の動機と目的
- Vision Transformers (ViTs) の解釈性ギャップを勾配ベースの説明可能性手法を ViT の attention マップに結びつけることで解消する。
- layerwise gradients を活用して複数の ViT レイヤーにおける特徴形成を捉え、それを単一の説明可能性マップに集約する。
- segmentation、open-vocabulary detection、perturbation evaluations で diverse ViT backbones 上で LeGrad の有効性を示す。
- LeGrad が非常に大規模な ViTs へスケールし、異なる特徴集約戦略へ適応することを示す。
- ハイパーパラメータ不要、モデルアグノスティックなツールを提供し、トレーニングやファインチューニングの localization annotations を必要としない。
提案手法
- 各層の ViT attention maps に対するターゲットクラス活性化の勾配を計算。
- 集約前に negative contributions をクリップするために ReLU を適用。
- 全層の layerwise 説明信号を平均化し、2D ヒートマップへ reshape。
- self-attention map の代わりに pooler の attention map を用いて attentional poolers に method を適応。
- segmentation (ImageNet-Seg), open-vocabulary detection (OpenImagesV7), perturbation tests (ImageNet-val) で評価。
- 様々な ViT バックボーン (ViT-B/16 から ViT-BigG/14) および集約スキームと互換性を示す。

実験結果
リサーチクエスチョン
- RQ1LeGrad は ViT attention maps に対する勾配を計算することで model decisions を image regions に忠実に割り当てることができるか?
- RQ2層を跨いだ層別信号を pooling することは層専用マップと比較して ViTs の説明可能性を向上させるか?
- RQ3異なる ViT バックボーン across segmentation open-vocabulary localization perturbation-based evaluations で LeGrad はどう機能するか?
- RQ4LeGrad は非常に大規模な ViTs へスケールし、異なる特徴集約法へ適応可能か?
- RQ5訓練中 localization annotations なしで LeGrad は性能を維持するか?
主な発見
| Method | Pixel Acc. | mIoU | mAP |
|---|---|---|---|
| LRP | 52.81 | 33.57 | 54.37 |
| Partial-LRP | 61.49 | 40.71 | 72.29 |
| rollout | 60.63 | 40.64 | 74.47 |
| Raw attention | 65.67 | 43.83 | 76.05 |
| GradCAM | 70.27 | 44.50 | 70.30 |
| CheferCAM | 69.21 | 47.47 | 78.29 |
| TextSpan | 73.01 | 40.26 | 81.4 |
| LeGrad | 77.52 | 58.66 | 82.49 |
- LeGrad は ImageNet-Seg で CLIP ViT-B/16 を用いて高い mIoU (58.66) とピクセル精度 (77.52) を達成。
- OpenImagesV7 open-vocabulary segmentation で LeGrad はすべての SOTA 手法を上回り、モデルサイズごとに substantial gains を得た。
- LeGrad の摂動ベースの評価は negative および positive perturbations の下で強い性能を示し、しばしば勾配ベース・attentionベースのベースラインを上回る。
- LeGrad は ViT-BigG/14 (2.5B パラメータ) へスケールし、異なる pooling 戦略でも有効であり続ける。
- SigLIP-B/16 で open-vocabulary localization の p-mIoU の顕著な改善を達成。
- Qualitative analyses は LeGrad の説明が関連する物体に焦点を当て、ノイズの多い背景アーティファクトを抑制することを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。