[論文レビュー] MotionCNN: A Strong Baseline for Motion Prediction in Autonomous Driving
MotionCNNは、複数の未来軌道仮説を信頼度とともに出力するシンプルなCNNベースのベースラインを提示し、Waymo Open Motion Datasetで競争力のある結果を達成し、2021年チャレンジで3位にランクインします。
To plan a safe and efficient route, an autonomous vehicle should anticipate future motions of other agents around it. Motion prediction is an extremely challenging task that recently gained significant attention within the research community. In this work, we present a simple and yet very strong baseline for multimodal motion prediction based purely on Convolutional Neural Networks. While being easy-to-implement, the proposed approach achieves competitive performance compared to the state-of-the-art methods and ranks 3rd on the 2021 Waymo Open Dataset Motion Prediction Challenge. Our source code is publicly available at GitHub
研究の動機と目的
- 多様なアーキテクチャを使わず、マルチモーダル動作予測のためのシンプルで強力なベースラインを動機付ける。
- ラスタライズされた地図・俯瞰図表現とCNNを活用して、信頼度とともに複数の未来軌道を予測する。
- Waymo Open Motion Dataset上で最先端手法と対等に競える性能を示す。
提案手法
- 対象エージェントを中心とした2차期の履歴軌道と地図をマルチチャネルの224×224画像にラスタライズする。
- ImageNetで事前学習済みのCNNバックボーンを用いて、混合モデルによりK個の軌道仮説とその信頼度を予測する。
- 将来を固定共分散を持つK個のガウスの混合としてモデル化する。地上 truth 軌道上で負の対数尤度損失で訓練する。
- 推論時にはK=6の軌道仮説を出力し、それらの平均を最終予測とし、対応する信頼度を付与する。
- AdamW、ウェアーム再開を伴うコサインアニーリング、早期停止で訓練する。バックボーンのバリエーション(Xception71、ResNet18)を評価する。
- ラスタライズをディスクへキャッシュすることでオンザフライのラスタライズを回避し、訓練を加速する。
実験結果
リサーチクエスチョン
- RQ1純粋なCNNベースのラスタ画像アプローチは、グラフや複雑なアーキテクチャを用いる最先端の動作予測手法と競えるのか?
- RQ2CNN回帰を用いた混合ガウス損失が、意味のあるマルチモーダル軌道予測を提供するのか?
- RQ3軽量バックボーン(例:ResNet18)は、より深いバックボーン(例:Xception71)と比較してこのベースラインでどうか。
主な発見
| 手法 | mAP | Min ADE | Min FDE | Miss Rate | Overlap Rate |
|---|---|---|---|---|---|
| Waymo LSTM baseline | 0.1756 | 1.0065 | 2.3553 | 0.3750 | 0.1898 |
| ReCoAt | 0.2711 | 0.7703 | 1.6668 | 0.2437 | 0.1642 |
| DenseTNT | 0.3281 | 1.0387 | 1.5514 | 0.1573 | 0.1779 |
| MotionCNN-Xception71 (Ours) | 0.2136 | 0.7400 | 1.4936 | 0.2091 | 0.1560 |
| MotionCNN-ResNet18 (Ours) | 0.1920 | 0.8154 | 1.6396 | 0.2552 | 0.1605 |
| MotionCNN-Xception71 (Ours) | 0.2123 | 0.7383 | 1.4957 | 0.2072 | 0.1576 |
- MotionCNNベースラインは、Waymo Open Motion Datasetの動作予測チャレンジでmAP指標を用いて3位にランクイン。
- Min ADEおよびMin FDEスコアで競争力を示し、これらの指標で複数のより複雑なモデルを上回る。
- Xception71バックボーンを用いたMotionCNNは、テストセットでmAP=0.2136、Min ADE=0.7400、Min FDE=1.4936、Miss Rate=0.2091、Overlap Rate=0.1560を達成。
- ResNet18バリアントは学習が約3倍速いが、より深いバックボーンと比べて性能が低い。
- 検証セットでは、MotionCNN-Xception71がmAP=0.2123、Min ADE=0.7383、Min FDE=1.4957、Miss Rate=0.2072、Overlap Rate=0.1576。
- モデルは評価済みの予測セットサイズに対応する6つの軌道仮説(K=6)を出力する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。