QUICK REVIEW

[论文解读] Watch and Learn: Semi-Supervised Learning of Object Detectors from Videos

Ishan Misra, Abhinav Shrivastava|arXiv (Cornell University)|May 21, 2015

Video Surveillance and Tracking Methods参考文献 42被引用 23

一句话总结

本文提出了一种半监督学习框架，仅通过少量初始标注的边界框，即可在长视频中自动发现并标注数十万个物体实例。通过融合检测、鲁棒跟踪、重定位以及跨多个特征空间的多视角建模，该方法有效抑制了语义漂移，并生成多样化、高质量的训练数据，显著提升了在 VIRAT 和 KITTI 数据集上的物体检测器性能。

ABSTRACT

We present a semi-supervised approach that localizes multiple unknown object instances in long videos. We start with a handful of labeled boxes and iteratively learn and label hundreds of thousands of object instances. We propose criteria for reliable object detection and tracking for constraining the semi-supervised learning process and minimizing semantic drift. Our approach does not assume exhaustive labeling of each object instance in any single frame, or any explicit annotation of negative data. Working in such a generic setting allow us to tackle multiple object instances in video, many of which are static. In contrast, existing approaches either do not consider multiple object instances per video, or rely heavily on the motion of the objects present. The experiments demonstrate the effectiveness of our approach by evaluating the automatically labeled data on a variety of metrics like quality, coverage (recall), diversity, and relevance to training an object detector.

研究动机与目标

解决在无需对视频帧进行详尽人工标注的情况下，大规模训练物体检测器的挑战。
通过利用视频数据中多个弱监督、不相关的线索，克服半监督学习中的语义漂移问题。
在真实场景的稀疏标注设置下实现学习，即任意帧中均不保证所有物体都被标注，且无显式负样本数据。
开发一种可扩展的、增量式学习框架，能从长视频中自动选择多样化且相关的训练样本。
通过确保覆盖不同物体姿态和外观，提升检测器的泛化能力，即使在静态或低运动场景中亦能实现。

提出的方法

仅通过在长视频序列中提供少量稀疏的手动标注边界框启动学习过程。
通过外观和运动线索，迭代应用检测与鲁棒跟踪，识别跨帧的候选物体实例。
通过多视角建模方法融合检测与跟踪结果，利用不同特征空间中的一致性，降低误差相关性。
应用重定位技术以优化边界框预测，随时间推移提高定位精度。
基于多样性与相关性度量选择新训练样本，确保覆盖不同物体姿态与视角。
采用增量学习循环，每次迭代中重新评估并优化训练好的检测器，仅当新样本满足可靠性与多样性标准时才添加。

实验结果

研究问题

RQ1在无需详尽帧级标注的情况下，视频中的半监督学习能否有效发现多个未知物体实例？
RQ2如何将多个弱信号（外观、运动、时间一致性）结合，以减少误差累积并防止语义漂移？
RQ3当无显式负样本数据时，系统在多大程度上能从长视频中学习到多样化且具代表性的训练样本？
RQ4与传统的检测-跟踪方法或基于特征函数的方法相比，该方法在标注质量与检测器性能方面表现如何？
RQ5该框架在大规模视频语料库（如数百万帧）中是否具备可扩展性，同时保持高召回率与低漂移？

主要发现

所提方法在 VIRAT 和 KITTI 数据集的保留测试集上，平均纯度与召回率均优于基线检测-跟踪方法与基于特征函数的方法。
该方法成功在长视频中标注了数十万个物体实例，仅依赖初始 25–43 个标注框，显著扩展了训练数据规模。
自动标注数据中 3D 姿态的分布与 KITTI 数据集的真实分布高度一致，表明数据具有高多样性，且对常见视角无偏差。
与基线方法相比，该方法实现了更优的检测性能，证明其约束机制在迭代学习过程中有效抑制了语义漂移。
多视角建模与去相关误差处理的结合，使边界框预测在时间上更加准确与稳定，即使在低运动或静态场景中亦表现良好。
该框架可有效扩展至大规模视频语料库，在 VIRAT 数据集中处理高达 820,000 帧，在 KITTI 数据集中处理 10,000 帧，且在各次迭代中均保持一致的性能提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。