Skip to main content
QUICK REVIEW

[논문 리뷰] IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision Transformers

Bowen Pan, Rameswar Panda|arXiv (Cornell University)|2021. 06. 23.
Explainable Artificial Intelligence (XAI)참고 문헌 64인용 수 68
한 줄 요약

IA-RED2는 시각 트랜스포머에 대해 해석 가능하고 입력 의존적인 중복 축소를 도입하여 비정보성 패치를 동적으로 제거함으로써 이미지에서 최대 1.4배, 비디오에서 최대 4배의 속도 향상과 미미한 정확도 손실(<0.7%)를 달성한다.

ABSTRACT

The self-attention-based model, transformer, is recently becoming the leading backbone in the field of computer vision. In spite of the impressive success made by transformers in a variety of vision tasks, it still suffers from heavy computation and intensive memory costs. To address this limitation, this paper presents an Interpretability-Aware REDundancy REDuction framework (IA-RED$^2$). We start by observing a large amount of redundant computation, mainly spent on uncorrelated input patches, and then introduce an interpretable module to dynamically and gracefully drop these redundant patches. This novel framework is then extended to a hierarchical structure, where uncorrelated tokens at different stages are gradually removed, resulting in a considerable shrinkage of computational cost. We include extensive experiments on both image and video tasks, where our method could deliver up to 1.4x speed-up for state-of-the-art models like DeiT and TimeSformer, by only sacrificing less than 0.7% accuracy. More importantly, contrary to other acceleration approaches, our method is inherently interpretable with substantial visual evidence, making vision transformer closer to a more human-understandable architecture while being lighter. We demonstrate that the interpretability that naturally emerged in our framework can outperform the raw attention learned by the original visual transformer, as well as those generated by off-the-shelf interpretation methods, with both qualitative and quantitative results. Project Page: http://people.csail.mit.edu/bpan/ia-red/.

연구 동기 및 목표

  • 해석 가능성을 해치지 않으면서 효율성을 향상시키기 위해 비전 트랜스포머의 중복 계산 감소를 추구한다.
  • 입력별 중요도에 조건화된, 동적이며 해석 가능한 모듈을 제안하여 정보를 덜 제공하는 입력 패치를 버린다.
  • IA-RED를 다층 트랜스포머 단계에서 토큰을 가지치기하는 계층적 프레임워크로 확장한다.
  • 다양한 백본은 물론 이미지와 비디오 태스크 전반에 걸쳐 모델에 의존하지 않는 적용 가능성을 입증한다.

제안 방법

  • 각 패치 토큰에 정보를 부여하는 점수를 할당하는 다중 헤드 해석기(multi-head interpreter)를 도입한다.
  • MSA/FFN 블록 이전에 임계값 이하의 점수를 가진 토큰을 제거하여 입력 시퀀스 길이를 축소한다.
  • 사전 학습된 ViT에서 위계적(계단식) 커리큘럼 기반 방식으로 해석기를 훈련시키고, 정확도와 효율성을 균형화하는 보상으로 REINFORCE를 사용한다.
  • 레이어 전반의 해석 신호를 모아 패치 수준의 히트맵(시각적 증거)을 생성한다.
  • 속도, 정확도, 해석성 지표 측면에서 baseline(랜덤, MemNet, 원시 주의) 및 데이터 의존적 희소 트랜스포머와 비교한다.

실험 결과

연구 질문

  • RQ1정확도를 해치지 않으면서 입력당 비전 트랜스포머의 중복은 얼마나 안전하게 제거될 수 있는가?
  • RQ2효율성 주도 토큰 가지치기의 부산물로 해석가능성이 나타날 수 있는가?
  • RQ3IA-RED2 프레임워크가 이미지 및 비디오 태스크와 다양한 트랜스포머 백본에서 일반화되는가?
  • RQ4계층적이고 입력 의존적인 가지치기에서 속도 향상과 정확도 간의 트레이드오프는 무엇인가?
  • RQ5표준 시각 벤치마크에서 IA-RED2가 기존의 해석 가능성 방법들과 어떻게 비교되는가?

주요 결과

  • DeiT를 이용한 이미지 인식에서 최대 1.4x의 속도 향상을 달성하고 정확도 손실은 0.7% 미만이다.
  • TimeSformer로 비디오 동작 인식에서 최대 4x 가속을 달성하며 대체로 정확도를 유지한다.
  • IA-RED2는 해석가능한 히트맵을 생성하여 ImageNet-Seg의 약 weakly-supervised 세분화에서 원시 주의와 GradCAM보다 우수한 성능을 보이며(픽셀 정확도 70.36, mAcc 64.86, mIoU 49.42).
  • ablation에서 3-group IA-RED2(D=3)는 ImageNet-1K에서 더 나은 정확도-속도 트레이드오프를 제공한다(Top-1 79.1%).
  • 가중치 가지치기와 결합 시, 재조정 없이 1.7x 속도 향상과 1.7%의 정확도 하락만 발생한다.
  • 데이터 수준의 중복 제거는 모델 수준 가지치기에 보완적이며 병합 시 추가 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.