QUICK REVIEW

[论文解读] Multiple Object Recognition with Visual Attention

Jimmy Ba, Volodymyr Mnih|arXiv (Cornell University)|Dec 24, 2014

Advanced Image and Video Retrieval Techniques参考文献 6被引用 701

一句话总结

该论文提出了一种深度循环注意力模型（DRAM），通过强化学习逐步关注图像中的相关区域，实现多目标识别。该模型在SVHN手写数字识别任务上优于当前最先进的卷积神经网络，参数更少、计算量更小，尤其在更大、裁剪较少的图像上表现更优。

ABSTRACT

We present an attention-based model for recognizing multiple objects in images. The proposed model is a deep recurrent neural network trained with reinforcement learning to attend to the most relevant regions of the input image. We show that the model learns to both localize and recognize multiple objects despite being given only class labels during training. We evaluate the model on the challenging task of transcribing house number sequences from Google Street View images and show that it is both more accurate than the state-of-the-art convolutional networks and uses fewer parameters and less computation.

研究动机与目标

解决卷积神经网络（ConvNets）在处理大图像时的可扩展性和效率限制。
实现端到端训练的模型，仅使用类别标签即可联合定位和识别多个目标。
开发一种灵活、高效的架构，可扩展至可变输入尺寸，并处理可变长度的目标序列。
相比标准的ConvNets，在真实世界中不理想的数据（如更大、裁剪较少的图像）上提升性能。

提出的方法

使用深度循环神经网络，在每个时间步处理多分辨率的图像裁剪区域（称为“凝视”）。
通过强化学习训练模型，以最大化标签序列对数似然的变分下界。
采用凝视网络从关注的图像区域提取特征，使用循环控制器决定下一个凝视位置。
使用策略网络输出凝视位置，并可选地预测目标类别，过程持续到不再检测到新目标为止。
在训练期间对凝视策略引入随机性，以提升泛化能力并减少过拟合。
通过在先前关注位置周围重新应用模型对大图像进行微调，实现无需重新训练的适应。

实验结果

研究问题

RQ1一个可端到端训练的模型能否仅使用类别级别的监督，学习在图像中定位和识别多个目标？
RQ2基于注意力的方法是否在准确率和效率上优于标准的ConvNets，尤其是在大图像或裁剪不充分的图像上？
RQ3在紧密裁剪图像上训练的模型能否在不重新训练的情况下泛化到更大、裁剪较少的输入？
RQ4注意力模型在不同图像尺寸下的计算成本和参数效率与深层ConvNets相比如何？
RQ5与ConvNets中的标准正则化方法相比，随机凝视策略在多大程度上提升了泛化能力并减少了过拟合？

主要发现

DRAM模型在多数字SVHN识别任务上达到最先进性能，优于最佳的ConvNets，无论在紧密裁剪图像还是更大、裁剪较少的图像上均表现更优。
在54×54裁剪图像上，DRAM模型的测试错误率与最佳ConvNets相当，但参数显著更少，计算成本更低。
在110×110放大图像上，DRAM模型大幅优于微调后的ConvNet，展现出对图像尺度和噪声更强的鲁棒性。
DRAM模型在大图像上微调仅需数小时，而10层ConvNet从头训练则需约一周。
该模型的计算成本与输入图像尺寸无关，因为它仅处理选定的凝视区域，因此在大输入图像上极为高效。
与ConvNets相比，DRAM模型更不易过拟合：Dropout仅带来0.1%的性能提升，而ConvNet需使用大量Dropout才能达到5.5%的错误率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。