[论文解读] LSTD: A Low-Shot Transfer Detector for Object Detection
LSTD 提出了一种低样本迁移检测器,将 SSD 风格的边界框回归与 Faster R-CNN 风格的粗粒化到细粒化分类相结合,并通过正则化的迁移学习(背景抑制和迁移知识)来从极少量带标签目标图像中检测未见对象。
Recent advances in object detection are mainly driven by deep learning with large-scale detection benchmarks. However, the fully-annotated training set is often limited for a target detection task, which may deteriorate the performance of deep detectors. To address this challenge, we propose a novel low-shot transfer detector (LSTD) in this paper, where we leverage rich source-domain knowledge to construct an effective target-domain detector with very few training examples. The main contributions are described as follows. First, we design a flexible deep architecture of LSTD to alleviate transfer difficulties in low-shot detection. This architecture can integrate the advantages of both SSD and Faster RCNN in a unified deep framework. Second, we introduce a novel regularized transfer learning framework for low-shot detection, where the transfer knowledge (TK) and background depression (BD) regularizations are proposed to leverage object knowledge respectively from source and target domains, in order to further enhance fine-tuning with a few target images. Finally, we examine our LSTD on a number of challenging low-shot detection experiments, where LSTD outperforms other state-of-the-art approaches. The results demonstrate that LSTD is a preferable deep detector for low-shot scenarios.
研究动机与目标
- 解决在有限带标签数据的低样本目标域中对深度目标检测器进行自适应的困难。
- 利用丰富的源域知识构建适用于少样本学习的目标域检测器。
- 开发一个正则化迁移学习框架,以在小型目标数据集上改进微调。
- 在一个灵活的架构中整合边界框回归和对象分类,便于低样本检测的迁移学习。
提出的方法
- 设计一个深度 LSTD 架构,使用类似 SSD 的多卷积边界框回归以实现尺寸多样性,以及类似 Faster RCNN 的粗粒化到细粒化分类以实现鲁棒的目标性和类别判定。
- 在一个大型源数据集上训练 LSTD,然后从源域初始化目标域 LSTD,并通过包含主检测损失和两个正则项的正则化损失进行微调。
- 引入 Background-Depression (BD) 正则化,使用真实框抑制背景区域的激活,以将学习聚焦于对象。
- 引入 Transfer-Knowledge (TK) 正则化,利用软化的源域类别预测为目标域 proposals 提供指导,按对象 proposals 实现。
- 将总损失公式化为 L_total = L_main + L_BD + L_TK,并通过可调权重平衡各分量贡献。
- 在三个迁移任务上评估 LSTD(COCO→ImageNet2015,COCO→VOC2007,ImageNet2015→VOC2010),目标样本逐渐稀缺(1–30 次)。
- 将 LSTD 与 Faster RCNN 和 SSD 进行对比,并分析 BD 和 TK 正则化对低样本性能的影响。
实验结果
研究问题
- RQ1一个统一架构同时结合 SSD 和 Faster RCNN 的组件,是否能够提升低样本检测性能?
- RQ2带有 BD 和 TK 的正则化迁移学习在目标数据稀缺时是否能改善微调?
- RQ3在真正的低样本场景(1–5 次)下,LSTD 相较于最先进的弱监督/半监督检测器的表现如何?
- RQ4LSTD 对 ROI 池化层的选择以及源域与目标域之间目标类差异的鲁棒性如何?
主要发现
| Task | Source (large-scale) | Target (low-shot) | mAP (1-shot) | mAP (2-shot) | mAP (5-shot) | mAP (10-shot) | mAP (30-shot) |
|---|---|---|---|---|---|---|---|
| Task 1 | COCO (80 classes) | ImageNet2015 (50 classes) | 16.5 | 21.9 | 34.3 | 41.5 | 52.6 |
| Task 2 | COCO (60 classes) | VOC2007 (20 classes) | 27.1 | 46.1 | 57.9 | 63.2 | 67.2 |
| Task 3 | ImageNet2015 (181 classes) | VOC2010 (20 classes) | 29.3 | 37.2 | 48.1 | 52.1 | 56.4 |
- LSTD 在低样本目标域的多项任务中优于 Faster RCNN 与 SSD。
- TK 和 BD 的正则化显著改善微调,尤其在 1–5 次样本时(例如任务 2,1 次样本:FT 27.1 → TK 31.8 → TK+BD 34.0)。
- BD 正则化持续有助于前景聚焦,降低背景干扰,并且对 BD 的卷积层选择(conv5_3 vs conv7)具有鲁棒性。
- TK 正则化利用源域软标签对目标 proposals 进行正则化,提升跨域对未见目标类别的迁移能力。
- 在任务 1 的 30 次样本下,表中显示 LSTD(LSTD FT)达到 52.6 的 mAP,且达到 55.8 的 mAP(LSTD FT+TK+BD),展现了数据增多时的强劲表现。
- 在非常低样本设置(1–5 次)下,LSTD 显示出与弱监督/半监督方法相比的竞争力或优越性,并在目标数据适度充足时接近全监督水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。