[论文解读] LSDA: Large Scale Detection Through Adaptation
LSDA 提出了一种领域自适应方法,可将 ImageNet 训练的图像分类器转换为物体检测器,而无需为新类别提供边界框标注。通过使用少量带标注类别的数据学习从分类到检测的转换,LSDA 实现了大规模检测——相比基线分类器实现了 50% 的相对 mAP 提升,并仅使用图像级别标签即支持了 7,604 个类别的检测器。
A major challenge in scaling object detection is the difficulty of obtaining labeled images for large numbers of categories. Recently, deep convolutional neural networks (CNNs) have emerged as clear winners on object classification benchmarks, in part due to training with 1.2M+ labeled classification images. Unfortunately, only a small fraction of those labels are available for the detection task. It is much cheaper and easier to collect large quantities of image-level labels from search engines than it is to collect detection data and label it with precise bounding boxes. In this paper, we propose Large Scale Detection through Adaptation (LSDA), an algorithm which learns the difference between the two tasks and transfers this knowledge to classifiers for categories without bounding box annotated data, turning them into detectors. Our method has the potential to enable detection for the tens of thousands of categories that lack bounding box annotations, yet have plenty of classification data. Evaluation on the ImageNet LSVRC-2013 detection challenge demonstrates the efficacy of our approach. This algorithm enables us to produce a >7.6K detector by using available classification data from leaf nodes in the ImageNet tree. We additionally demonstrate how to modify our architecture to produce a fast detector (running at 2fps for the 7.6K detector). Models and software are available at
研究动机与目标
- 为解决在有限边界框标注下将物体检测扩展到数万个类别的挑战。
- 通过使用同时具备分类和检测标注的小部分类别,学习从图像分类到物体检测的一般性转换。
- 通过将预训练分类器适配为检测器,实现仅具有图像级别标签类别的检测能力。
- 通过减少对昂贵边界框标注的依赖,降低大规模检测的标注成本。
- 证明仅使用分类数据训练大多数类别,即可构建高性能、大规模检测器(7,604 个类别)的可行性。
提出的方法
- 将检测问题形式化为领域自适应问题:源域为图像级别标注数据(分类),目标域为边界框标注数据(检测)。
- 在分类数据上训练深度卷积神经网络,以学习强特征表示。
- 使用同时具备分类和检测标注的类别子集,学习一个将分类特征映射到检测特征的转换网络。
- 将学习到的转换应用于适配无任何边界框标注的类别的预训练分类器,使其成为检测器。
- 使用小部分标注类别的适配特征和检测损失,对检测头进行微调。
- 通过集成快速区域建议网络和空间金字塔池化,优化推理速度,将每张图像的推理时间降低至 0.5 秒。
实验结果
研究问题
- RQ1能否仅使用少量同时具备图像级别和边界框标注的类别,将深度神经网络从图像分类适配到物体检测?
- RQ2所学习的适配方法在无边界框标注的类别上能多大程度上泛化,仅依赖图像级别标签?
- RQ3在保留类别上,适配后的检测器性能与直接在检测框架中使用分类网络特征相比如何?
- RQ4该适配方法能否扩展到数万个类别,实现在极少标注投入下的大规模检测?
- RQ5在将该适配技术应用于大规模检测器时,检测精度与推理速度之间存在何种权衡?
主要发现
- LSDA 在保留类别上相比基线方法(直接在检测框架中使用分类器特征)实现了 50% 的相对 mAP 提升。
- 误差分析显示,适配后的检测器显著减少了因定位错误和背景混淆导致的误报。
- 该方法实现了 7,604 个类别的物体检测器,其中 7,404 个类别仅使用图像级别标签训练,未使用任何边界框标注。
- 该模型在完整 7,604 类检测器上实现了 2fps 的检测速度,通过使用快速区域建议和空间金字塔池化可进一步加速至 0.5fps。
- 可视化结果表明,LSDA 能够在无检测数据的类别中正确地定位物体,而基线分类器则因定位能力差和对背景敏感而失败。
- 该适配技术在视觉上相似的类别间泛化良好,但最高频的误报通常源于视觉相似类别的混淆(例如,摩托车被误分类为自行车)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。