QUICK REVIEW

[论文解读] Deep Learning for Single-View Instance Recognition

David Held, Sebastian Thrun|arXiv (Cornell University)|Jul 29, 2015

Advanced Image and Video Retrieval Techniques参考文献 50被引用 22

一句话总结

本文提出一种多阶段深度学习框架，用于单图像实例识别，通过利用多视角辅助数据集提升视角鲁棒性。在微调单张实例图像之前，先在类别级和多视角数据上进行预训练，该方法在有纹理和无纹理物体上均达到最先进性能，优于关键点、模板和稀疏编码方法。

ABSTRACT

Deep learning methods have typically been trained on large datasets in which many training examples are available. However, many real-world product datasets have only a small number of images available for each product. We explore the use of deep learning methods for recognizing object instances when we have only a single training example per class. We show that feedforward neural networks outperform state-of-the-art methods for recognizing objects from novel viewpoints even when trained from just a single image per object. To further improve our performance on this task, we propose to take advantage of a supplementary dataset in which we observe a separate set of objects from multiple viewpoints. We introduce a new approach for training deep learning methods for instance recognition with limited training data, in which we use an auxiliary multi-view dataset to train our network to be robust to viewpoint changes. We find that this approach leads to a more robust classifier for recognizing objects from novel viewpoints, outperforming previous state-of-the-art approaches including keypoint-matching, template-based techniques, and sparse coding.

研究动机与目标

解决在产品数据库和实际应用中常见的每类仅有一个训练图像的特定物体实例识别挑战。
克服传统基于关键点和模板匹配方法在视角变化或无纹理物体上失效的局限性。
通过引入使用独立多视角数据集的新颖预训练策略，提升深度网络在低数据场景下的泛化能力和鲁棒性。
证明多视角预训练可使神经网络即使在实例级训练数据极少的情况下，也能学习到视角不变性。

提出的方法

采用从一般到特定的训练流程：首先在ImageNet上进行一般物体类别识别的预训练，然后在多视角数据集上进行预训练以学习视角不变性，最后在单图像实例数据上进行微调。
使用从多个角度捕获的物体多视角数据集，训练网络以增强对视角变化的鲁棒性，即使最终任务仅使用每实例的一张图像。
在多视角预训练期间固定早期卷积层，逐步微调更深层（fc6、fc7，最终包括卷积层），以适应视角不变性特征。
在随机背景上进行预训练，以提升在真实场景中对背景变化的鲁棒性，增强对合成背景之外的泛化能力。
在测试期间应用噪声增强，通过从正态分布中采样缩放和位移因子，评估对边界框不准确性的鲁棒性。
使用交叉验证确定多视角预训练期间最优的层冻结点，以在性能和泛化能力之间取得平衡。

实验结果

研究问题

RQ1当每种物体仅有一个训练图像时，深度神经网络能否实现鲁棒的单图像实例识别？
RQ2与在类别级数据集上进行的标准预训练相比，是否在多视角数据集上进行预训练能显著提升在新视角下的性能？
RQ3多视角预训练如何影响真实测试场景中对背景变化和边界框噪声的鲁棒性？
RQ4哪些网络层从多视角预训练中获益最多，以及渐进式微调如何影响最终准确率？

主要发现

采用多视角预训练的所提方法在RGB-D物体数据集上达到65.1%的准确率，相比无多视角预训练的基线方法（59.2%）提升了5.9%。
多视角预训练使包含背景的真实场景性能提升2.6%（44.1% vs. 41.5%），证明对背景变化具有更强的鲁棒性。
在多视角预训练期间同时微调fc6和fc7层，相比基线方法带来4.7%的准确率提升，其中最大的提升（1.7%）来自仅微调fc7。
该方法在有纹理和无纹理物体上均优于关键点匹配、基于模板和稀疏编码方法，尤其在大视角变化下表现更优。
对边界框噪声的鲁棒性可维持到噪声参数n=10，所有噪声水平下准确率均显著高于基线方法。
在随机背景上进行预训练可提升真实场景下的性能，但在深度分割设置下略有损害，表明其收益具有上下文依赖性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。