Skip to main content
QUICK REVIEW

[论文解读] Saccader: Improving Accuracy of Hard Attention Models for Vision

Gamaleldin F. Elsayed, Simon Kornblith|arXiv (Cornell University)|Aug 20, 2019
Explainable Artificial Intelligence (XAI)被引用 11
一句话总结

Saccader 是一种新颖的硬注意力模型,通过引入仅使用类别标签的预训练步骤来初始化注意力位置,从而在视觉任务中提升准确率与可解释性,实现有效的策略梯度优化。其在 ImageNet 上实现了 75% 的 top-1 准确率与 91% 的 top-5 准确率,同时仅关注图像的不到三分之一区域,显著缩小了与标准模型之间的差距。

ABSTRACT

Although deep convolutional neural networks achieve state-of-the-art performance across nearly all image classification tasks, their decisions are difficult to interpret. One approach that offers some level of interpretability by design is extit{hard attention}, which uses only relevant portions of the image. However, training hard attention models with only class label supervision is challenging, and hard attention has proved difficult to scale to complex datasets. Here, we propose a novel hard attention model, which we term Saccader. Key to Saccader is a pretraining step that requires only class labels and provides initial attention locations for policy gradient optimization. Our best models narrow the gap to common ImageNet baselines, achieving $75\%$ top-1 and $91\%$ top-5 while attending to less than one-third of the image.

研究动机与目标

  • 为解决仅使用类别标签监督训练硬注意力模型的挑战,该方法难以训练且难以扩展。
  • 在不依赖注意力监督或密集标注的情况下,提升硬注意力机制在图像分类任务中的准确率。
  • 通过仅使用类别标签进行预训练步骤初始化注意力位置,实现硬注意力模型中高效的策略梯度优化。
  • 在保持 ImageNet 等复杂数据集上具有竞争力性能的同时,减轻注意力模型的计算与标注负担。

提出的方法

  • 引入一个仅使用类别标签来生成后续策略梯度训练所需初始注意力位置的预训练阶段。
  • 利用可微分注意力机制,根据学习到的策略选择空间区域,且在训练过程中进一步优化注意力位置。
  • 采用策略梯度方法优化注意力策略,其中奖励基于分类准确率。
  • 采用两阶段训练流程:首先使用类别标签进行预训练以初始化注意力,然后通过策略梯度进行微调。
  • 在训练期间采用随机采样策略选择注意力位置,从而实现通过离散注意力选择的反向传播。
  • 将注意力限制在输入图像的不到三分之一区域,以提升可解释性并降低计算成本。

实验结果

研究问题

  • RQ1仅使用类别标签监督且无注意力标注的情况下,硬注意力模型能否在 ImageNet 上实现具有竞争力的准确率?
  • RQ2仅使用类别标签的预训练步骤是否能显著提升硬注意力模型的收敛性与性能?
  • RQ3在不牺牲分类准确率的前提下,硬注意力模型中注意力区域可被减少到何种程度?
  • RQ4与端到端训练硬注意力模型相比,所提出的预训练策略在稳定性和性能方面表现如何?

主要发现

  • Saccader 仅使用类别标签监督与少于图像三分之一的注意力区域,在 ImageNet 上实现了 75% 的 top-1 准确率与 91% 的 top-5 准确率。
  • 预训练步骤显著提升了硬注意力模型中策略梯度优化的稳定性和收敛性。
  • 该模型通过仅关注图像的极小部分区域,保持了高度的可解释性,同时性能接近标准 ImageNet 基线模型。
  • 该方法实现了在复杂数据集上无需注意力标注或额外监督即可有效训练硬注意力模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。