[论文解读] Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos
LFG 通过未标注、未定位的 YouTube 自我视角视频进行几何、运动和语义感知的驾驶模型预训练,然后只用前置摄像头进行规划微调,取得强劲的规划性能和数据效率。
Ego-centric driving videos available online provide an abundant source of visual data for autonomous driving, yet their lack of annotations makes it difficult to learn representations that capture both semantic structure and 3D geometry. Recent advances in large feedforward spatial models demonstrate that point maps and ego-motion can be inferred in a single forward pass, suggesting a promising direction for scalable driving perception. We therefore propose a label-free, teacher-guided framework for learning autonomous driving representations directly from unposed videos. Unlike prior self-supervised approaches that focus primarily on frame-to-frame consistency, we posit that safe and reactive driving depends critically on temporal context. To this end, we leverage a feedforward architecture equipped with a lightweight autoregressive module, trained using multi-modal supervisory signals that guide the model to jointly predict current and future point maps, camera poses, semantic segmentation, and motion masks. Multi-modal teachers provide sequence-level pseudo-supervision, enabling LFG to learn a unified pseudo-4D representation from raw YouTube videos without poses, labels, or LiDAR. The resulting encoder not only transfers effectively to downstream autonomous driving planning on the NAVSIM benchmark, surpassing multi-camera and LiDAR baselines with only a single monocular camera, but also yields strong performance when evaluated on a range of semantic, geometric, and qualitative motion prediction tasks. These geometry and motion-aware features position LFG as a compelling video-centric foundation model for autonomous driving.
研究动机与目标
- 从大规模未标注的自我视角视频中,无需姿态或标签,激励学习鲁棒的驾驶表征。
- 开发一个标签自由、教师引导的预训练框架,预测未来的几何、语义和运动。
- 在一个前馈 3D 重建骨架上创建一个轻量级自回归扩展,以实现短期预测。
- 利用多模态教师信号在没有显式标签的情况下监督几何、语义和运动。
- 在数据高效微调下,展示对规划和其他下游任务的强传输能力。
提出的方法
- 使用一个预训练编码器(pi3)加上因果自回归变换器,从未定位的视频预测未来的几何、语义和运动。
- 采用多模态教师(SegFormer 负责语义,SAM2 和 CoTracker3 负责运动)在未标注数据上提供伪标签。
- 训练以预测一个统一的伪 4D 表示,包括点云映射、相机位姿、语义映射、置信度映射以及观测帧和未来帧的运动掩码。
- 结合使用 SegFormer 伪标签训练的语义头,以产生未来帧语义。
- 通过从第一帧跟踪实例并回投影教师的 3D 运动估计来构建伪地面真实的运动掩码,从而实现有监督的运动预测。
- 用一个综合损失(包含分割、位姿、点云映射、置信度和运动损失),对未来帧给予额外权重以鼓励外推。
实验结果
研究问题
- RQ1是否可以使用大规模未标注的自我视角驾驶视频在没有姿态或标签的情况下学习几何、运动和语义感知表征?
- RQ2无标签、教师引导的预训练方法在极少量带标签数据的情况下向下游自主驾驶规划任务的迁移效果如何?
- RQ3在一个前馈 3D 重建骨架上添加短期自回归扩展,是否能够作为单镜头系统捕捉动态场景结构以用于规划?
- RQ4与基于 BEV 的基线以及多传感器基线相比,学习得到的编码器在规划任务上的数据效率如何?
主要发现
| Method | Input | NC | DAC | TTC | C. | EP | PDMS |
|---|---|---|---|---|---|---|---|
| UniAD | 6Cam | 98.2 | 93.7 | 94.4 | 100.0 | 79.1 | 85.2 |
| TransFuser | 3Cam+L | 97.7 | 92.8 | 92.0 | 100.0 | 79.2 | 84.0 |
| Hydra-MDP | 3Cam+L | 96.9 | 94.0 | 94.0 | 100.0 | 78.7 | 84.7 |
| DiffusionDrive | 3Cam+L | 96.8 | 95.4 | 94.7 | 100.0 | 82.0 | 88.1 |
| LFG (Ours) | 1Cam | 98.2 | 93.7 | 94.4 | 100.0 | 79.1 | 85.2 |
- LFG 仅使用单前视摄像头在 NAVSIM 上实现最先进的规划性能,甚至超越了部分多视角和基于 LiDAR 的基线。
- 仅使用 10% 的标注数据,LFG 也能达到具有竞争力的规划性能,显示出强数据效率。
- LFG 的预训练编码器在语义、几何和运动任务(超越规划,如深度和 3D 点云)上具有有效迁移性。
- 模型能够预测时序一致的几何和短期未来自我运动,在未来帧中仍保持质量。
- 只有一个前视摄像头的 LFG 可以在规划基准中与依赖更丰富传感器的 BEV 系统相媲美。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。