[论文解读] Virtual Worlds as Proxy for Multi-Object Tracking Analysis
本论文介绍 Virtual KITTI,这是一个从真实 KITTI 序列克隆的照片真实、合成数据集,用于研究多目标跟踪的现实到虚拟的可转移性,并考察虚拟数据在多种条件下用于训练和评估的收益。
Modern computer vision algorithms typically require expensive data acquisition and accurate manual labeling. In this work, we instead leverage the recent progress in computer graphics to generate fully labeled, dynamic, and photo-realistic proxy virtual worlds. We propose an efficient real-to-virtual world cloning method, and validate our approach by building and publicly releasing a new video dataset, called Virtual KITTI (see http://www.xrce.xerox.com/Research-Development/Computer-Vision/Proxy-Virtual-Worlds), automatically labeled with accurate ground truth for object detection, tracking, scene and instance segmentation, depth, and optical flow. We provide quantitative experimental evidence suggesting that (i) modern deep learning algorithms pre-trained on real data behave similarly in real and virtual worlds, and (ii) pre-training on virtual data improves performance. As the gap between real and virtual worlds is small, virtual worlds enable measuring the impact of various weather and imaging conditions on recognition performance, all other things being equal. We show these factors may affect drastically otherwise high-performing deep models for tracking.
研究动机与目标
- 激励使用照片真实感的合成数据,以实现用于 MOT 及相关任务的大规模、多样化且自动标注的视频数据集。
- 提出基于克隆的流水线,从少量真实 KITTI 序列的种子集创建虚拟世界。
- 量化观测在真实世界到虚拟世界的转移程度,并展示虚拟预训练对 MOT 的价值。
- 使对天气、照明和视角对 MOT 识别性能影响的可控研究成为可能。
- 提供公开可用的 Virtual KITTI 数据集,具有自动的检测、跟踪、深度、分割和光流地面实况标注。
提出的方法
- 使用基于 Unity 的流水线,将种子真实 KITTI 序列克隆到照片真实的虚拟世界中。
- 通过 GPU 着色器和渲染阶段自动生成密集的地面实况标注(2D/3D 边界框、深度、分割、光流)。
- 通过脚本驱动的修改(照明、雾、雨、相机姿态)创建具有多种天气和成像条件的合成视频。
- 通过使用预训练检测器和优化的跟踪超参数(贝叶斯优化)来比较真实视频和克隆的虚拟视频,以评估转移性。
- 通过在 Virtual KITTI 克隆上进行训练并在真实 KITTI 上进行微调来评估虚拟预训练对性能提升的作用。
实验结果
研究问题
- RQ1现实 KITTI 数据到其虚拟克隆的识别性能转移程度是多少?
- RQ2与仅在真实数据上训练相比,虚拟数据预训练是否能提升真实场景中的 MOT 性能?
- RQ3在以晴天真实数据训练的情况下,虚拟世界中的天气、照明和摄像机视角变化如何影响 MOT 性能?
- RQ4虚拟世界是否提供一种可扩展、可控的方式来研究在多样条件下 MOT 系统的鲁棒性?
主要发现
- 现实到虚拟的转移在 MOT 指标上平均接近无损(两种追踪器的 MOTA 差距均<0.5%)
- 虚拟预训练(先使用虚拟数据再进行真实数据微调)可提升 MOT 性能,特别是 DP-MCF 追踪器。
- 在以理想晴天真实数据训练时,天气和成像变化(雾、雨、接近夜间的条件)显著降低 MOT 性能,其中雾的影响最强。
- Virtual KITTI 的地面实况标注是一致生成的,减少标注者主观性,并实现跨任务的密集像素级标注。
- Virtual KITTI 使对诸如相机角度与照明等因素的系统性、在其他条件不变下的分析成为可能,在真实数据中成本较高。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。