QUICK REVIEW

[论文解读] Object Detectors Emerge in Deep Scene CNNs

Bolei Zhou, Aditya Khosla|arXiv (Cornell University)|Dec 22, 2014

Advanced Neural Network Applications参考文献 23被引用 711

一句话总结

该论文表明，仅使用Places数据集进行场景分类训练的卷积神经网络（CNN）的内部层中，会自发地涌现出目标检测器，且在整个训练过程中未使用任何目标级别的监督信号。其主要贡献在于：单个CNN可在一次前向传播中同时完成场景识别与目标定位，揭示了目标检测器作为场景表征的一部分被自然学习到，且在检测具有判别性的目标方面表现出高准确率。

ABSTRACT

With the success of new computational architectures for visual processing, such as convolutional neural networks (CNN) and access to image databases with millions of labeled examples (e.g., ImageNet, Places), the state of the art in computer vision is advancing rapidly. One important factor for continued progress is to understand the representations that are learned by the inner layers of these deep architectures. Here we show that object detectors emerge from training CNNs to perform scene classification. As scenes are composed of objects, the CNN for scene classification automatically discovers meaningful objects detectors, representative of the learned scene categories. With object detectors emerging as a result of learning to recognize scenes, our work demonstrates that the same network can perform both scene recognition and object localization in a single forward-pass, without ever having been explicitly taught the notion of objects.

研究动机与目标

探究仅针对场景分类进行训练的CNN中是否能自发涌现出目标检测器，且不依赖显式的对象标注。
理解在场景数据集上训练的CNN内部表征与以对象为中心的数据集上训练的CNN内部表征之间的本质差异。
评估在场景数据集上训练的CNN内部单元是否能实现可靠的目标定位与检测。
确定检测到的对象是否对应于最能区分场景类别的对象。
证明单个深度网络可在无需多个输出的情况下，支持多层级识别（边缘、纹理、对象、场景）。

提出的方法

在包含205个场景类别的Places数据集上训练一个深度CNN（Places-CNN），使用与ImageNet-CNN相同的网络架构。
分析pool5层的特征图，识别在特定对象类别上激活的单元。
利用Amazon Mechanical Turk的人工标注标签，解释每个单元激活的语义含义。
通过单元激活实现边界框定位与分割，评估目标检测性能。
测量数据集中对象频率与网络中检测频率之间的相关性。
通过测量每类对象在场景分类中最具信息量的频率，评估其判别能力。

实验结果

研究问题

RQ1在仅针对场景分类进行训练、且未使用任何目标级别监督的情况下，CNN中是否能涌现出目标检测器？
RQ2CNN内部层中检测到的对象是否与最能区分场景类别的对象一致？
RQ3网络中目标检测频率与训练数据集中对象频率之间的关系如何？
RQ4同一网络是否能在一次前向传播中同时完成场景识别与目标定位？
RQ5场景训练的CNN内部单元在多大程度上代表了有意义且可解释的目标检测器？

主要发现

在仅针对场景分类进行训练的CNN的pool5层中涌现出目标检测器，262,144个单元中有115个能检测特定对象类别。
SUN数据集中对象频率与网络中检测频率之间的相关系数为0.54，表明存在中等但显著的关系。
对象在场景分类中的判别性与检测频率之间的相关系数为0.84，表明网络优先关注最具信息量的对象。
使用pool5层单元进行检测对象的分割任务，Jaccard指数和平均精度均表现优异，许多对象的平均精度（AP）> 0.5。
该网络可在一次前向传播中同时完成场景识别与目标定位，仅依赖于训练网络的内部特征图。
检测到的对象不仅限于语义部件（如眼睛、鼻子），还包含与场景相关的对象，如床、灯和柜子，这些对象在场景区分中起关键作用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。