[论文解读] IA-RED$^2$: Interpretability-Aware Redundancy Reduction for Vision Transformers
IA-RED2 引入了一种可解释的、与输入相关的视觉变换器冗余减少方法,能够动态丢弃无信息的补丁,在最小化准确率损失(<0.7%)的同时,实现高达1.4倍的图片处理加速和4倍的视频加速。
The self-attention-based model, transformer, is recently becoming the leading backbone in the field of computer vision. In spite of the impressive success made by transformers in a variety of vision tasks, it still suffers from heavy computation and intensive memory costs. To address this limitation, this paper presents an Interpretability-Aware REDundancy REDuction framework (IA-RED$^2$). We start by observing a large amount of redundant computation, mainly spent on uncorrelated input patches, and then introduce an interpretable module to dynamically and gracefully drop these redundant patches. This novel framework is then extended to a hierarchical structure, where uncorrelated tokens at different stages are gradually removed, resulting in a considerable shrinkage of computational cost. We include extensive experiments on both image and video tasks, where our method could deliver up to 1.4x speed-up for state-of-the-art models like DeiT and TimeSformer, by only sacrificing less than 0.7% accuracy. More importantly, contrary to other acceleration approaches, our method is inherently interpretable with substantial visual evidence, making vision transformer closer to a more human-understandable architecture while being lighter. We demonstrate that the interpretability that naturally emerged in our framework can outperform the raw attention learned by the original visual transformer, as well as those generated by off-the-shelf interpretation methods, with both qualitative and quantitative results. Project Page: http://people.csail.mit.edu/bpan/ia-red/.
研究动机与目标
- 推动在视觉变换器中减少冗余计算以提高效率,同时不牺牲可解释性。
- 提出一个动态、可解释的模块,根据每个输入的显著性有条件地丢弃无信息的输入补丁。
- 将 IA-RED 扩展为分层框架,在多个 transformer 阶段对 token 进行裁剪。
- 展示在不同骨干网络、图像与视频任务中的模型无关适用性。
提出的方法
- 引入一个多头解释器,为每个补丁 token 分配一个信息性分数。
- 在 MSA/FFN 块之前,丢弃分数低于阈值的 token,从而减少输入序列长度。
- 在预训练 ViT 上以分层、课程式方案训练解释器,使用 REINFORCE,奖励在准确性和效率之间取得平衡。
- 在各层聚合可解释性信号,生成补丁级热图(可视证据)。
- 在速度、准确性和可解释性指标方面,与基线(随机、MemNet、原始注意力)以及基于数据的数据依赖稀疏变换器进行对比。
实验结果
研究问题
- RQ1在不损害准确性的前提下,视觉变换器每个输入可以安全移除多少冗余?
- RQ2可否将可解释性作为以效率为驱动的 token 裁剪的副产物出现?
- RQ3IA-RED2 框架是否可泛化到图像和视频任务以及不同的 transformer 骨干网络?
- RQ4分层、输入相关裁剪在加速与准确性之间有哪些权衡?
- RQ5在标准视觉基准上,IA-RED2 相较于现有的可解释性方法如何?
主要发现
- 在 DeiT 的图像识别上实现高达1.4x 的加速,且准确率损失小于0.7%。
- 在 TimeSformer 的视频动作识别上实现高达4x 的加速,同时基本保持准确性。
- IA-RED2 生成的可解释热图在 ImageNet-Seg 的弱监督分割中(像素准确率 70.36, mAcc 64.86, mIoU 49.42)可超越原始注意力和 GradCAM。
- 在消融实验中,3组 IA-RED2 (D=3) 在 ImageNet-1K 上提供更优的准确性与速度权衡(Top-1 79.1%)。
- 与权重裁剪结合时,IA-RED2 可在不微调的情况下实现1.7x 加速,且准确率下降仅1.7%。
- 数据层面的冗余减少与模型级裁剪是互补的,组合时可产生叠加收益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。