[論文レビュー] DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving
DriveDreamer は現実世界の運転動画データから駆動する拡散ベースの世界モデルを構築し、制御可能な運転動画生成と将来の運転ポリシー予測を実現します。構造化された交通情報を伴う2段階の学習で訓練され、nuScenes で動画品質の改善とオープンループ運転計画を実証します。
World models, especially in autonomous driving, are trending and drawing extensive attention due to their capacity for comprehending driving environments. The established world model holds immense potential for the generation of high-quality driving videos, and driving policies for safe maneuvering. However, a critical limitation in relevant research lies in its predominant focus on gaming environments or simulated settings, thereby lacking the representation of real-world driving scenarios. Therefore, we introduce DriveDreamer, a pioneering world model entirely derived from real-world driving scenarios. Regarding that modeling the world in intricate driving scenes entails an overwhelming search space, we propose harnessing the powerful diffusion model to construct a comprehensive representation of the complex environment. Furthermore, we introduce a two-stage training pipeline. In the initial phase, DriveDreamer acquires a deep understanding of structured traffic constraints, while the subsequent stage equips it with the ability to anticipate future states. The proposed DriveDreamer is the first world model established from real-world driving scenarios. We instantiate DriveDreamer on the challenging nuScenes benchmark, and extensive experiments verify that DriveDreamer empowers precise, controllable video generation that faithfully captures the structural constraints of real-world traffic scenarios. Additionally, DriveDreamer enables the generation of realistic and reasonable driving policies, opening avenues for interaction and practical applications.
研究の動機と目的
- 現実世界の運転から派生した世界モデルの必要性を、シミュレーション環境ではなく現実の運転データから動機づける。
- 拡散型自動運転拡散モデル(Auto-DM)を導入して交通構造を符号化し、効率的なサンプリングを実現する。
- 最初に構造的制約を学習し、次に予測的な動画とアクションモデリングを行う二段階のトレーニングパイプラインを提案する。
- 交通制約とテキストプロンプトに沿って制御可能な運転動画生成を可能にする。
- DriveDreamer の有用性を nuScenes の知覚訓練の改善とオープンループ運転計画に対して実証する。
提案手法
- HDMaps、3Dボックス、テキストプロンプトで条件付けして運転動画を生成する拡散ベースのモデル Auto-DM を導入。
- 空間的に整列した(HDMap)と位置(3Dボックス)条件をゲート付き自己注意と時間的注意でフレームの一貫性を保証。
- テキストプロンプトを用いて天候・時間帯などのスタイル属性を形作るためにクロスアテンションを使用。
- 二段階トレーニング: 第1段階は単一フレームおよび動画から交通構造制約を学習; 第2段階は ActionFormer を用いた動画予測世界モデルを訓練し、運転アクションから将来の交通構造を予測。
- ActionFormer は過去のアクションから将来の交通構造を反復的に予測し、Auto-DM が将来の運転動画と将来の運転アクションを生成できるようにする。
- モデルの目的は動画予測項とアクション予測項を変分下限で組み合わせ、動画は MSE、アクションは L1 で最適化する。
実験結果
リサーチクエスチョン
- RQ1現実世界の運転ビデオで学習した拡散ベースの世界モデルは、HDMaps、3Dボックスなどの構造化された交通情報を理解し、リアルな運転動画を生成できるか?
- RQ2二段階の学習パイプラインは現実世界の運転世界モデルの学習時のサンプリング効率と収束を改善できるか?
- RQ3Driving actions を ActionFormer 経由で統合することで、現実世界のシナリオに沿った正確な将来状態予測ともっと現実的な運転ポリシーを生み出せるか?
- RQ4合成運転動画とポリシーは nuScenes のような現実世界データセットの下で知覚訓練とオープンループ計画を改善するか?
主な発見
| 表1: 合成データを用いた3D物体検出性能(mAP、NDS) | ||||
|---|---|---|---|---|
| FCOS3D | 1600x900 | w/o synthetic data | 30.2 | 38.1 |
| FCOS3D | 1600x900 | w 4K synthetic data | 30.9 (+0.7) | 38.3 (+1) |
| BEVFusion | 704x256 | w/o synthetic data | 32.8 | 37.6 |
| BEVFusion | 704x256 | w 4K synthetic data | 35.8 (+3.0) | 39.5 (+1.9) |
- DriveDreamer は構造化された交通制約に従いテキストプロンプトで天候/時間帯を指示可能な制御可能な運転動画生成を実現します。
- 交通構造を用いた第一段階の Auto-DM 訓練は動画生成品質とサンプリング効率を改善し、第二段階のビジョン-アクション訓練が予測的な運転動画とアクションを生む。
- ActionFormer は過去のアクションから未来の交通構造を更新して将来の状態を予測し、動画のリアリズムとポリシーの信ぴ度を高める。
- DriveDreamer が生成する合成データは nuScenes の 3D 物体検出指標(FCOS3D と BEVFusion)を最大 3.0 mAP および 1.9 NDS 向上させる(報告設定)。
- オープンループ計画の評価では DriveDreamer が競争力のある L2 軌跡誤差(0.29 m)と prior multimodal methods より低い衝突率を示す。
- 定量比較によると全パイプライン(Auto-DM + ActionFormer)を備えた DriveDreamer は ablations および DriveGAN よりも FID(14.9)および FVD(340.8)で優れている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。