[论文解读] Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection
本文提出了一种统一的、实例感知的、上下文聚焦的、内存高效的弱监督目标检测(WSOD)框架,解决了三个关键挑战:实例模糊性、部件主导问题以及高内存消耗。通过引入一种实例感知的自训练算法(MIST)、可学习的Concrete DropBlock用于上下文建模,以及顺序小批量反向传播,该方法在COCO(12.1% AP)、VOC 2007(54.9% AP)和VOC 2012(52.1% AP)上实现了最先进性能,同时实现了基于ResNet的WSOD首个基准,并拓展至弱监督视频目标检测。
Weakly supervised learning has emerged as a compelling tool for object detection by reducing the need for strong supervision during training. However, major challenges remain: (1) differentiation of object instances can be ambiguous; (2) detectors tend to focus on discriminative parts rather than entire objects; (3) without ground truth, object proposals have to be redundant for high recalls, causing significant memory consumption. Addressing these challenges is difficult, as it often requires to eliminate uncertainties and trivial solutions. To target these issues we develop an instance-aware and context-focused unified framework. It employs an instance-aware self-training algorithm and a learnable Concrete DropBlock while devising a memory-efficient sequential batch back-propagation. Our proposed method achieves state-of-the-art results on COCO ($12.1\% ~AP$, $24.8\% ~AP_{50}$), VOC 2007 ($54.9\% ~AP$), and VOC 2012 ($52.1\% ~AP$), improving baselines by great margins. In addition, the proposed method is the first to benchmark ResNet based models and weakly supervised video object detection. Code, models, and more details will be made available at: https://github.com/NVlabs/wetectron.
研究动机与目标
- 解决弱监督目标检测中的实例模糊性问题,即较不显著或聚集的物体容易被遗漏或错误分组。
- 缓解部件主导问题,即检测器过度关注判别性部件(如面部)而非完整物体。
- 降低弱监督训练中密集目标提议带来的高内存消耗,尤其是在视频设置中。
- 实现使用更深主干网络(如ResNet)进行训练,并拓展至弱监督视频目标检测。
- 开发一个统一框架,同时提升检测的鲁棒性、泛化能力与效率。
提出的方法
- 提出MIST(实例感知自训练),通过空间多样性约束计算实例级别的伪标签,以减少提议选择中的模糊性。
- 提出一种可学习的Concrete DropBlock模块,通过可微分、端到端可训练的丢弃率执行空间丢弃,以促进上下文感知的特征学习。
- 采用顺序小批量反向传播,将提议分批处理,显著降低ROI-Pooling阶段的内存使用,从而支持更大模型训练。
- 使用图像级标签作为监督信号,通过自训练迭代优化伪标签,提升检测置信度与定位精度。
- 在视频扩展中引入光流特征,以利用短时运动模式,增强时空一致性。
- 端到端训练整个框架,对伪标签提议施加分类损失,同时优化定位与分类性能。
实验结果
研究问题
- RQ1是否可通过实例感知伪标签的自训练方法,有效降低弱监督检测中对象实例选择的模糊性?
- RQ2可微分的、可学习的空间丢弃机制(Concrete DropBlock)是否能有效缓解部件主导问题并提升上下文感知特征学习?
- RQ3顺序小批量反向传播是否能在内存受限条件下,支持高分辨率图像与ResNet等深层主干网络的训练?
- RQ4所提框架是否可泛化至弱监督视频目标检测?能否利用运动线索实现性能提升?
- RQ5各组件单独及联合使用时,对标准基准上检测精度与鲁棒性的提升程度如何?
主要发现
- 所提方法在COCO上达到12.1% AP,显著优于先前弱监督方法,在该基准上创下新的SOTA记录。
- 在VOC 2007上,方法达到54.9% AP,较基线提升10.1%(相对),表明在复杂物体类别上具有强大性能。
- 在VOC 2012上,方法达到52.1% AP,展现出在不同数据集与物体分布下的强泛化能力。
- 消融实验表明,MIST在所有IoU阈值和物体尺寸下均提升了平均召回率,证实其有效降低了实例模糊性。
- Concrete DropBlock在动物与人物类别上带来最大性能增益,验证了其在缓解部件主导问题上的有效性。
- 顺序小批量反向传播使在16GB GPU上每张图像支持高达4,000个提议的训练成为可能,同时保持训练速度在标准反向传播的2倍以内。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。