Skip to main content
QUICK REVIEW

[论文解读] On Learning Where To Look

Marc’Aurelio Ranzato|arXiv (Cornell University)|Apr 24, 2014
Advanced Image and Video Retrieval Techniques参考文献 17被引用 37
一句话总结

本文提出一种基于凝视(foveated)和凝视采样(glimpse-based)的深度学习模型,通过顺序性、注意力驱动的凝视采样对图像进行分类,仅聚焦于图像的相关区域,从而降低计算成本。该方法在MNIST数据集上实现了与卷积神经网络相当的准确率(0.8%错误率),同时相比完整图像处理,推理时间最高可缩短20倍,展现出良好的可扩展性和对外观变化的鲁棒性。

ABSTRACT

Current automatic vision systems face two major challenges: scalability and extreme variability of appearance. First, the computational time required to process an image typically scales linearly with the number of pixels in the image, therefore limiting the resolution of input images to thumbnail size. Second, variability in appearance and pose of the objects constitute a major hurdle for robust recognition and detection. In this work, we propose a model that makes baby steps towards addressing these challenges. We describe a learning based method that recognizes objects through a series of glimpses. This system performs an amount of computation that scales with the complexity of the input rather than its number of pixels. Moreover, the proposed method is potentially more robust to changes in appearance since its parameters are learned in a data driven manner. Preliminary experiments on a handwritten dataset of digits demonstrate the computational advantages of this approach.

研究动机与目标

  • 通过减少计算量与图像分辨率呈线性增长的问题,解决视觉系统的可扩展性挑战。
  • 通过数据驱动的注意力机制处理,提升物体识别对外观和姿态变化的鲁棒性。
  • 开发一种可训练的、顺序性的凝视机制,动态选择高分辨率区域用于分类。
  • 在显著低于标准深度神经网络的计算成本下,实现最先进水平的准确率。

提出的方法

  • 模型使用一个低分辨率网络(N0)基于全局图像特征和类别概率预测下一个凝视位置。
  • 在预测位置处裁剪出一个高分辨率图像块,并由第二个网络(N1)进行分类,后续凝视逐步优化预测结果。
  • 系统交替进行凝视位置的优化(通过3×3网格的局部搜索)和使用随机梯度下降更新模型参数。
  • 通过几何平均法整合多个凝视的类别预测结果,以融合多视角的证据。
  • 训练过程中,将凝视位置视为隐变量,模型通过端到端反向传播学习选择信息丰富的区域。
  • 模型采用两阶段推理:首先进行粗粒度扫描以识别候选区域,随后进行聚焦的高分辨率分析。

实验结果

研究问题

  • RQ1深度学习模型能否学会按顺序关注图像中最信息丰富的区域,从而降低计算成本?
  • RQ2基于凝视的、中央凹式的处理方法是否能在显著更高的效率下实现与标准CNN相当的准确率?
  • RQ3通过仅在相关图像区域集中计算资源,模型是否能在小规模数据集上实现良好泛化能力?
  • RQ4多凝视信息的融合如何提升分类置信度并增强对外观变化的鲁棒性?

主要发现

  • 该模型在完整MNIST数据集上实现了0.8%的测试错误率,与标准卷积神经网络性能相当。
  • 仅使用一个凝视时,模型达到1.2%的测试错误率,并在推理速度上相比完整图像全连接网络实现3.6倍加速。
  • 与处理全分辨率图像相比,该方法将计算成本最高降低了20倍,同时保持了高准确率。
  • 该模型在小规模训练集上泛化良好,仅用10,000个样本训练时,准确率与先前工作[11]相当。
  • 增加第二个凝视仅使错误率降低0.1%,表明收益递减且可能存在过拟合。
  • 凝视位置能够追踪数字在图像中的位置,证明了有效空间注意力与动态再聚焦能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。