[论文解读] Relation Distillation Networks for Video Object Detection
本文提出关系蒸馏网络(RDN),一种新颖的时空推理框架,通过在帧间逐步蒸馏物体关系来提升视频目标检测性能。通过采用多阶段推理——先从所有支持性提议中聚合关系,再对高置信度提议进行精炼后蒸馏至参考帧——RDN在后处理后于ImageNet VID数据集上实现了84.7%的mAP,显著提升了检测准确率与轨迹框链接性能。
It has been well recognized that modeling object-to-object relations would be helpful for object detection. Nevertheless, the problem is not trivial especially when exploring the interactions between objects to boost video object detectors. The difficulty originates from the aspect that reliable object relations in a video should depend on not only the objects in the present frame but also all the supportive objects extracted over a long range span of the video. In this paper, we introduce a new design to capture the interactions across the objects in spatio-temporal context. Specifically, we present Relation Distillation Networks (RDN) --- a new architecture that novelly aggregates and propagates object relation to augment object features for detection. Technically, object proposals are first generated via Region Proposal Networks (RPN). RDN then, on one hand, models object relation via multi-stage reasoning, and on the other, progressively distills relation through refining supportive object proposals with high objectness scores in a cascaded manner. The learnt relation verifies the efficacy on both improving object detection in each frame and box linking across frames. Extensive experiments are conducted on ImageNet VID dataset, and superior results are reported when comparing to state-of-the-art methods. More remarkably, our RDN achieves 81.8% and 83.2% mAP with ResNet-101 and ResNeXt-101, respectively. When further equipped with linking and rescoring, we obtain to-date the best reported mAP of 83.8% and 84.7%.
研究动机与目标
- 为解决在视频中建模可靠、长距离物体关系的挑战,此类关系对提升检测性能至关重要,但因计算成本高和提议噪声大而难以实现。
- 通过有选择地聚焦于支持帧中的高置信度提议,减少计算开销并提升关系学习的稳定性。
- 通过级联式逐步精炼与蒸馏物体关系,同时提升单帧检测与跨帧框链接性能。
- 设计一种可扩展的、基于区域的架构,适用于视频目标检测,有效利用时空一致性。
提出的方法
- RDN使用区域提议网络(RPN)从参考帧和支持帧中提取物体提议,形成支持性提议池。
- 在基础阶段,RDN通过聚合池中所有支持性提议的外观与几何特征,为每个参考帧提议计算关系特征。
- 在高级阶段,RDN首先从支持性提议池中选择高置信度提议,并在将其与所有支持性提议的关系增强后,用于精炼参考帧特征。
- 该方法采用两阶段推理结构:基础阶段为一阶关系,高级阶段通过级联精炼实现高阶关系。
- 关系特征通过其他物体的外观与几何嵌入的加权和计算,权重由注意力机制学习得到。
- 最终特征经关系蒸馏增强后,用于提议分类与回归,从而同时提升检测与轨迹框链接性能。
实验结果
研究问题
- RQ1如何在不产生过高计算成本的前提下,有效建模长距离视频帧间的物体关系?
- RQ2通过高置信度提议的级联、渐进式蒸馏,能否提升检测准确率与稳定性?
- RQ3多阶段推理与支持性提议的选择性精炼,在多大程度上提升了视频目标检测中的时空特征学习?
- RQ4关系蒸馏的集成是否同时改善了单帧检测与跨帧框链接性能?
主要发现
- RDN在ImageNet VID上使用ResNet-101时达到81.8%的mAP,使用ResNeXt-101时达到83.2%,优于先前的SOTA方法。
- 在应用包含框链接与重打分的后处理后,RDN在ImageNet VID上实现了84.7%的最高报告mAP。
- 与仅使用基础阶段相比,RDN的高级阶段将性能提升了0.5–1.0% mAP,证明了级联精炼的有效性。
- 高级阶段的最优采样比率为20%,在性能与推理速度间取得平衡,且在更高比率下准确率下降最小。
- 当时间跨度(T)从3增加到18时,mAP从80.3%提升至81.8%,且在T>18后收益递减。
- 该方法保持高效率,随着T从3增加到24,推理时间仅适度增加(从90.1ms增至103.1ms)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。