[论文解读] RODEO: Replay for Online Object Detection
RODEO 提出了一种新颖的流式在线目标检测框架,通过压缩的中级卷积神经网络(CNN)特征回放来缓解持续学习中的灾难性遗忘问题。通过使用固定容量的缓冲区存储并回放量化后的特征表示,RODEO 在 PASCAL VOC 2007 和 MS COCO 上实现了最先进性能,训练速度相比完整离线训练提升了 40 倍。
Humans can incrementally learn to do new visual detection tasks, which is a huge challenge for today's computer vision systems. Incrementally trained deep learning models lack backwards transfer to previously seen classes and suffer from a phenomenon known as $"catastrophic forgetting."$ In this paper, we pioneer online streaming learning for object detection, where an agent must learn examples one at a time with severe memory and computational constraints. In object detection, a system must output all bounding boxes for an image with the correct label. Unlike earlier work, the system described in this paper can learn this task in an online manner with new classes being introduced over time. We achieve this capability by using a novel memory replay mechanism that efficiently replays entire scenes. We achieve state-of-the-art results on both the PASCAL VOC 2007 and MS COCO datasets.
研究动机与目标
- 解决在线目标检测中的灾难性遗忘挑战,即模型需在有限内存和计算资源下逐步学习新类别。
- 实现真正的流式学习——逐张图像处理,无需依赖批处理更新或从头开始重新训练。
- 设计一种受生物启发的回放机制,通过存储并回放压缩表示而非原始图像,提升内存效率。
- 在增量学习设置下,在 PASCAL VOC 2007 和 MS COCO 上实现最先进性能,优于基于批次的增量方法。
- 设计适用于嵌入式或资源受限设备(如机器人平台)实时部署的系统。
提出的方法
- 采用双流网络架构:冻结的特征提取器(G)和可塑的检测头(F)分步更新。
- 从输入图像中提取中级 CNN 特征,并将其量化为紧凑且内存高效的表示。
- 将这些量化后的特征存储在固定容量的记忆缓冲区中,以便后续训练时回放。
- 在训练过程中,将当前图像的特征与缓冲区中随机选择的一组存储特征混合,以更新可塑层。
- 应用重建损失以重建回放的特征,从而保留对先前见过类别的知识。
- 采用缓冲区替换策略(如随机、类别均衡或基于目标数量)来管理有限的内存容量。
实验结果
研究问题
- RQ1基于压缩特征的记忆高效回放机制是否能有效防止流式目标检测中的灾难性遗忘?
- RQ2与基于批次的增量学习相比,采用增量单样本学习的在线目标检测在准确率和效率方面表现如何?
- RQ3使用中级特征的回放机制是否优于原始图像回放或知识蒸馏,在持续目标检测中表现更优?
- RQ4在内存受限条件下,不同缓冲区替换策略对长期模型性能有何影响?
- RQ5所提出的方法能否扩展至多模态检测任务(如需要关系理解的视觉查询检测,VQD)?
主要发现
- 在增量学习设置下,RODEO 在 PASCAL VOC 2007 和 MS COCO 上均实现了最先进平均精度(mAP),优于现有基于批次的增量方法。
- RODEO 将总训练时间从 873 小时(离线)缩短至 22 小时,实现 40 倍加速,同时保持了卓越的检测准确率。
- 尽管训练速度更快,该方法在 mAP 和推理效率方面显著优于微调和 SLDA+Regress 基线方法。
- 与原始图像回放或知识蒸馏相比,量化中级特征的回放更能有效保留对先前学习类别的知识。
- 在固定内存预算下,模型在 40 次增量学习迭代中保持了强劲性能,展现出对灾难性遗忘的强鲁棒性。
- 该框架具有良好的泛化能力,可通过将检测头修改为响应语言查询,轻松适配至多模态任务(如视觉查询检测 VQD)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。