[论文解读] Attention Branch Network: Learning of Attention Mechanism for Visual Explanation
本文提出了一种新型卷积神经网络架构——注意力分支网络(ABN),通过在专用注意力分支中集成基于响应的视觉解释模型,实现端到端训练,从而提升图像识别性能。通过在推理过程中生成的注意力图实现可解释性与特征优化的双重目标,ABN在图像分类、细粒度识别以及多任务面部属性识别任务中均达到当前最优性能。
Visual explanation enables human to understand the decision making of Deep Convolutional Neural Network (CNN), but it is insufficient to contribute the performance improvement. In this paper, we focus on the attention map for visual explanation, which represents high response value as the important region in image recognition. This region significantly improves the performance of CNN by introducing an attention mechanism that focuses on a specific region in an image. In this work, we propose Attention Branch Network (ABN), which extends the top-down visual explanation model by introducing a branch structure with an attention mechanism. ABN can be applicable to several image recognition tasks by introducing a branch for attention mechanism and is trainable for the visual explanation and image recognition in end-to-end manner. We evaluate ABN on several image recognition tasks such as image classification, fine-grained recognition, and multiple facial attributes recognition. Experimental results show that ABN can outperform the accuracy of baseline models on these image recognition tasks while generating an attention map for visual explanation. Our code is available at https://github.com/machine-perception-robotics-group/attention_branch_network.
研究动机与目标
- 通过将视觉解释集成到训练过程中,解决深度CNN模型可解释性不足与性能提升有限的问题。
- 克服现有基于响应的视觉解释方法需要架构修改且降低模型准确率的局限性。
- 构建统一框架,通过端到端训练同时提升识别准确率并提供基于注意力的视觉解释。
- 将注意力机制推广至多种CNN架构与图像识别任务,包括细粒度学习与多任务学习。
- 证明用于视觉解释的注意力图亦可作为有效的注意力机制,显著提升模型性能。
提出的方法
- ABN采用三分支架构:特征提取分支、用于生成基于响应的注意力图的注意力分支,以及用于分类的感知分支。
- 注意力分支采用基于响应的视觉解释机制——受类激活映射(CAM)启发——从特征图响应中生成注意力图,无需反向传播。
- 通过逐元素相乘操作将注意力图应用于特征图,使网络在分类过程中聚焦于显著区域。
- 通过联合来自注意力分支与感知分支的损失函数进行端到端训练,实现准确率与可解释性的联合优化。
- 该方法具有模块化特性,可通过在特征提取模块后插入注意力分支,适配VGG16、ResNet与ResNeXt等多种主干网络。
- 注意力机制源自全局平均池化前最后一层卷积层的响应,实现无需梯度的前向传播注意力图生成。
实验结果
研究问题
- RQ1基于响应的视觉解释方法能否被有效重用于注意力机制以提升CNN性能?
- RQ2端到端可训练网络能否同时优化图像识别准确率并提供有意义的视觉解释?
- RQ3将视觉解释生成的注意力图整合到特征学习过程中,是否能在多样化的图像识别任务中带来一致的性能提升?
- RQ4在细粒度识别与多任务面部属性预测等任务中,注意力图的分布有何差异?
- RQ5所提出的注意力机制能否在不同CNN架构与识别基准上实现良好泛化?
主要发现
- 在CompCars数据集上,使用VGG16作为主干网络时,ABN在汽车型号识别任务中准确率提升4.9%;使用ResNet101时,准确率提升6.2%。
- 在CompCars数据集的制造商识别任务中,ABN使用VGG16时准确率提升2.0%,使用ResNet101时提升7.5%。
- 在CelebA数据集上,ABN在多属性面部属性识别任务中达到91.07%的平均准确率,优于ResNet101(90.69%)及其他SOTA模型。
- 与ResNet101相比,ABN在40项面部属性任务中的27项上表现更优,尤其在“拱形眉毛”与“佩戴项链”等具有挑战性的属性上提升显著。
- t-SNE可视化结果表明,ABN的特征图更具判别性,因注意力引导的特征学习,其在车体姿态与细节形态上的聚类效果更优。
- 注意力图可视化显示,ABN聚焦于语义相关区域(如眼睛、嘴巴与头发),与所预测属性高度对应,验证了注意力机制的可解释性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。