[논문 리뷰] LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity
LeGrad는 Vision Transformers에 대해 계층별 그래디언트 기반 설명 가능성 방법을 도입하여 각 층의 주의 맵에 대한 그래디언트 신호를 across layers를 집계해 로버스트하고 오픈-보캐뷸러리하며 교란에 친화적인 로컬라이제이션 맵을 생성합니다. 이는 ViT 백본 전반에서 세그먼테이션, 오픈-보캐뷸러리 탐지, 및 로버스트니스 벤치마크에서 SOTA 방법을 능가합니다.
Vision Transformers (ViTs), with their ability to model long-range dependencies through self-attention mechanisms, have become a standard architecture in computer vision. However, the interpretability of these models remains a challenge. To address this, we propose LeGrad, an explainability method specifically designed for ViTs. LeGrad computes the gradient with respect to the attention maps of ViT layers, considering the gradient itself as the explainability signal. We aggregate the signal over all layers, combining the activations of the last as well as intermediate tokens to produce the merged explainability map. This makes LeGrad a conceptually simple and an easy-to-implement tool for enhancing the transparency of ViTs. We evaluate LeGrad in challenging segmentation, perturbation, and open-vocabulary settings, showcasing its versatility compared to other SotA explainability methods demonstrating its superior spatial fidelity and robustness to perturbations. A demo and the code is available at https://github.com/WalBouss/LeGrad.
연구 동기 및 목표
- ViTs의 해석 가능성 격차를 해결하기 위해 ViT의 attention 맵과 연계된 그래디언트 기반 설명 가능성 방법을 설계한다.
- 여러 ViT 층에 걸친 특징 형성을 포착하고 이를 단일 설명 가능 맵으로 집계하기 위해 층별 그래디언트를 활용한다.
- 다양한 ViT 백본에서 세그먼테이션, 오픈-보캐뷸러리 탐지, 그리고 교란 평가에 대한 LeGrad의 효과를 입증한다.
- LeGrad가 매우 큰 ViT로 확장되고 다양한 특징 집계 전략에 적응함을 보인다.
- 훈련이나 미세조정을 위한 로컬라이제이션 주석이 필요 없는 하이퍼파라미터 없이도 모델에 독립적인 도구를 제공한다.
제안 방법
- 각 층에 대해 ViT attention 맵에 대한 대상 클래스 활성화의 그래디언트를 계산한다.
- 집계 전에 음의 기여를 잘라내기 위해 ReLU를 적용한다.
- 모든 층에 걸친 계층별 설명 가능 신호를 평균내고 2D 히트맵으로 재구성한다.
- self-attention 맵 대신 풀러의 주의 맵을 사용하는 방식으로 이 방법을 attentional poolers에 적응시킨다.
- segmentation (ImageNet-Seg), open-vocabulary detection (OpenImagesV7), 및 perturbation 테스트 (ImageNet-val)에서 평가한다.
- ViT-B/16에서 ViT-BigG/14까지 다양한 ViT 백본 및 집계 방식과의 호환성을 입증한다.

실험 결과
연구 질문
- RQ1LeGrad가 ViT attention 맵에 대한 그래디언트를 계산하여 모델 결정이 이미지 영역에 충실히 귀속될 수 있는가?
- RQ2레이어별 맵보다 계층 간 신호를 풀링하는 것이 ViT의 설명 가능성을 개선하는가?
- RQ3다른 ViT 백본에서 segmentation, 오픈-보캐뷸러리 로컬라이제이션, 및 교란 기반 평가에서 LeGrad의 성능은 어떤가?
- RQ4LeGrad가 매우 큰 ViTs로 확장 가능하며 서로 다른 특징 집계 방법에 적응할 수 있는가?
- RQ5훈련 중 로컬라이제이션 주석 없이도 성능을 유지하는가?
주요 결과
| Method | Pixel Acc. | mIoU | mAP |
|---|---|---|---|
| LRP | 52.81 | 33.57 | 54.37 |
| Partial-LRP | 61.49 | 40.71 | 72.29 |
| rollout | 60.63 | 40.64 | 74.47 |
| Raw attention | 65.67 | 43.83 | 76.05 |
| GradCAM | 70.27 | 44.50 | 70.30 |
| CheferCAM | 69.21 | 47.47 | 78.29 |
| TextSpan | 73.01 | 40.26 | 81.4 |
| LeGrad | 77.52 | 58.66 | 82.49 |
- LeGrad는 CLIP ViT-B/16와 함께 ImageNet-Seg에서 다른 방법들보다 더 높은 mIoU (58.66)와 픽셀 정확도 (77.52)를 달성한다.
- OpenImagesV7의 오픈-보캐뷸러리 세그먼테이션에서 LeGrad는 모든 모델 크기에 걸쳐 SOTA 방법들보다 우수한 성능을 보인다.
- LeGrad의 교란 기반 평가은 음의 및 양의 교란에서 강력한 성능을 보여주며, 종종 그래디언트 및 어텐션 기반 기준선들을 능가한다.
- LeGrad는 ViT-BigG/14 (2.5B 매개변수)로 확장되며 서로 다른 풀링 전략에서도 효과적이다.
- SigLIP-B/16에서 LeGrad는 오픈-보캐뷸러리 로컬라이제이션에서 주목할 만한 p-mIoU 향상을 달성한다.
- 정성적 분석은 LeGrad의 설명이 관련 객체에 집중하고 시끄러운 배경 잡음은 억제함을 보인다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.