QUICK REVIEW

[論文レビュー] Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Matthew Strong, Wei-Jer Chang|arXiv (Cornell University)|Feb 25, 2026

Advanced Vision and Imaging被引用数 0

ひとこと要約

LFG はラベルなし・未姿勢の YouTube 自己中心動画から幾何、運動、意味論を意識した運転モデルを事前学習し、前方カメラ1台での計画のファインチューニングを行い、計画性能とデータ効率を高水準で達成します。

ABSTRACT

Ego-centric driving videos available online provide an abundant source of visual data for autonomous driving, yet their lack of annotations makes it difficult to learn representations that capture both semantic structure and 3D geometry. Recent advances in large feedforward spatial models demonstrate that point maps and ego-motion can be inferred in a single forward pass, suggesting a promising direction for scalable driving perception. We therefore propose a label-free, teacher-guided framework for learning autonomous driving representations directly from unposed videos. Unlike prior self-supervised approaches that focus primarily on frame-to-frame consistency, we posit that safe and reactive driving depends critically on temporal context. To this end, we leverage a feedforward architecture equipped with a lightweight autoregressive module, trained using multi-modal supervisory signals that guide the model to jointly predict current and future point maps, camera poses, semantic segmentation, and motion masks. Multi-modal teachers provide sequence-level pseudo-supervision, enabling LFG to learn a unified pseudo-4D representation from raw YouTube videos without poses, labels, or LiDAR. The resulting encoder not only transfers effectively to downstream autonomous driving planning on the NAVSIM benchmark, surpassing multi-camera and LiDAR baselines with only a single monocular camera, but also yields strong performance when evaluated on a range of semantic, geometric, and qualitative motion prediction tasks. These geometry and motion-aware features position LFG as a compelling video-centric foundation model for autonomous driving.

研究の動機と目的

大規模なラベルなし自撮り（ego-centric）動画から、姿勢やラベルなしで頑健な運転表現を学習する動機づけ。
未来の幾何、意味論、運動を予測するラベルフリーの教師ガイド付き事前学習フレームワークの開発。
短期予測を可能にするフィードフォワード3D再構成バックボーン上の軽量自回帰拡張の作成。
明示的なラベルなしで幾何、意味論、運動を監督するための多モーダル教師信号の活用。
データ効率の良いファインチューニングによる計画および他の下流タスクへの強力な転移の実証。

提案手法

未姿勢動画から未来の幾何、意味論、運動を予測する因果自回帰トランスフォーマーを用いた事前学習エンコーダ（pi3）を用いる。
意味論には SegFormer、運動には SAM2 と CoTracker3 の多モーダル教師を用いてラベルなしデータに疑似ラベルを提供。
観測フレームと未来フレームを含む統一疑似4D表現（点群マップ、カメラ姿勢、意味マップ、信頼度マップ、運動マスク）を予測する訓練を行う。
SegFormer の疑似ラベルで訓練された意味-head を組み込み、未来フレームの意味を生成。
最初のフレームからインスタンスを追跡し、教師からの3D運動推定を逆投影して疑似地上真実の運動マスクを構築し、監督付き運動予測を可能にする。
セマンティック、ポーズ、点群マップ、信頼度、運動損失を組み合わせた複合損失で最適化し、未来フレームに対する重みを追加して外挿を促進。

実験結果

リサーチクエスチョン

RQ1大量のラベルなしの自撮り動画を用いて、姿勢やラベルなしで幾何、運動、意味論を意識した表現を学習できるか。
RQ2ラベルフリーで教師-guided 事前学習が、最小のラベル付きデータで下流の自動運転計画へどれだけ転移するか。
RQ33D再構成バックボーン上の短期自回帰拡張が、単一カメラ系としての計画の動的シーン構造を捉えるか。
RQ4計画のための学習エンコーダのデータ効率は、BEVベースおよび多センサ基盤のベースラインと比べてどうか。

主な発見

Method	Input	NC	DAC	TTC	C.	EP	PDMS
UniAD	6Cam	98.2	93.7	94.4	100.0	79.1	85.2
TransFuser	3Cam+L	97.7	92.8	92.0	100.0	79.2	84.0
Hydra-MDP	3Cam+L	96.9	94.0	94.0	100.0	78.7	84.7
DiffusionDrive	3Cam+L	96.8	95.4	94.7	100.0	82.0	88.1
LFG (Ours)	1Cam	98.2	93.7	94.4	100.0	79.1	85.2

LFG は NAVSIM の計画性能で最先端を達成し、単一前方カメラのみで、いくつかの多視点・LiDAR ベースのベースラインを上回る。
ラベルデータがわずか10%の場合でも競争力のある計画性能を達成し、データ効率の高さを示す。
LFG の事前学習済みエンコーダは、計画以外の意味論、幾何、運動タスク（例：深度、3D点 map）へも効果的に転移する。
モデルは時系列で一貫した幾何と短期の未来自体動を予測し、未来フレームでの品質を維持する。
前方1カメラだけで、LFG は計画ベンチマークにおいて、より豊富なセンサ系に依存するBEVベースのシステムと競合可能。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。