QUICK REVIEW

[论文解读] Webly Supervised Learning of Convolutional Networks

Xinlei Chen, Abhinav Gupta|arXiv (Cornell University)|May 7, 2015

Advanced Image and Video Retrieval Techniques参考文献 58被引用 67

一句话总结

本文提出一种两阶段的弱监督网页学习方法，用于使用噪声网页数据训练卷积神经网络（CNN），首先在搜索引擎检索到的简单、干净图像上进行训练，然后利用学习到的相似性结构将模型适应到更难、更真实的图像。该方法在PASCAL VOC 2007目标检测任务上取得了最先进性能，且未使用任何VOC训练数据，优于ImageNet微调模型。

ABSTRACT

We present an approach to utilize large amounts of web data for learning CNNs. Specifically inspired by curriculum learning, we present a two-step approach for CNN training. First, we use easy images to train an initial visual representation. We then use this initial CNN and adapt it to harder, more realistic images by leveraging the structure of data and categories. We demonstrate that our two-stage CNN outperforms a fine-tuned CNN trained on ImageNet on Pascal VOC 2012. We also demonstrate the strength of webly supervised learning by localizing objects in web images and training a R-CNN style detector. It achieves the best performance on VOC 2007 where no VOC training data is used. Finally, we show our approach is quite robust to noise and performs comparably even when we use image search results from March 2013 (pre-CNN image search era).

研究动机与目标

探索卷积神经网络是否可以在大规模、噪声网页数据上有效训练，而无需人工标注的边界框。
解决来自图像搜索引擎和社交媒体等网页图像集合中的数据噪声与偏差问题。
为训练强大视觉模型提供一种可扩展、低成本的人工标注数据集（如ImageNet）替代方案。
证明弱监督CNN能够良好泛化至下游任务，如目标检测与场景分类。
表明仅使用网页数据训练的CNN模型可达到与ImageNet预训练模型相当的性能，即使完全不使用任何VOC训练数据。

提出的方法

首先，在从Google图像搜索获取的简单、高精度图像上训练初始CNN，这些图像被认为更干净且更能代表以物体为中心的图像。
其次，利用初始CNN从Flickr获取的更大规模、更难、更真实的图像中提取特征，这些图像更嘈杂，包含多个物体或复杂背景。
基于CNN特征构建图像间的基于相似性的关系图，以建模跨类别的语义与视觉结构。
利用学习到的关系图作为正则化器，在Flickr图像上微调初始CNN，以提升泛化能力并减少对噪声的过拟合。
利用数据与类别关系的结构，引导从简单图像到复杂图像的适应过程，模仿课程学习策略。
使用最终模型执行下游任务（如R-CNN风格的目标检测与场景分类），且不依赖目标任务的任何人工标注训练数据。

实验结果

研究问题

RQ1卷积神经网络是否可以在大规模、噪声网页数据上有效训练，而无需任何人工标注的边界框？
RQ2两阶段训练策略（从干净图像开始，再适应到更嘈杂的图像）是否能提升在下游任务上的泛化能力与性能？
RQ3弱监督CNN是否能在PASCAL VOC等目标检测基准上实现最先进性能，且不使用任何VOC训练数据？
RQ4该方法对数据噪声与分布偏移（如使用CNN兴起前时期的图像搜索结果）的鲁棒性如何？
RQ5仅从网页数据学习到的特征是否能在场景分类等任务上具有竞争力，即使未进行领域特定的微调？

主要发现

两阶段弱监督CNN在PASCAL VOC 2012上的表现优于ImageNet微调的CNN，证明其在更难数据上的优越泛化能力。
在PASCAL VOC 2007上，该方法在未使用任何VOC训练图像的情况下实现了最先进性能，完全依赖网页数据。
在MIT Indoor-67场景分类任务上，模型达到66.5%的准确率，与在Places数据集上训练的CNN相当，仅使用网页查询且无场景特定数据。
即使使用2013年3月的图像搜索结果（深度学习在图像搜索中兴起之前），该方法仍保持鲁棒性，显示出对噪声数据的强大泛化能力。
与基线方法相比，该方法显著降低了定位误差，但因背景包含与搜索查询的语义模糊性，仍存在挑战。
检测中的误报主要源于背景包含与搜索词的多义性（如“bicycle”可能指摩托车，“caprice”指汽车），凸显了更优词义消歧的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。