[論文レビュー] Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net
FaFは、BEVボクセル化点群から同時に検出、追跡、モーション予測を行うエンドツーエンドの単一3D CNNを提案し、最速30 msで実行、 prior methods を上回る。
In this paper we propose a novel deep neural network that is able to jointly reason about 3D detection, tracking and motion forecasting given data captured by a 3D sensor. By jointly reasoning about these tasks, our holistic approach is more robust to occlusion as well as sparse data at range. Our approach performs 3D convolutions across space and time over a bird's eye view representation of the 3D world, which is very efficient in terms of both memory and computation. Our experiments on a new very large scale dataset captured in several north american cities, show that we can outperform the state-of-the-art by a large margin. Importantly, by sharing computation we can perform all tasks in as little as 30 ms.
研究の動機と目的
- 視界遮蔽と疎なデータに対する頑健性を向上させるため、3D検出、追跡、モーション予測への総合的アプローチを動機づける。
- 時系列BEV表現を活用したジョイントタスクのための単一ステージ、エンドツーエンドネットワークを開発する。
- タスク間での共通計算がリアルタイム性能と精度向上をもたらすことを示す。
提案手法
- 3D LiDARデータをBEVボクセルグリッドとして表現し、高さをチャネルとして2D畳み込みを適用して単一フレーム処理を行い、疎性の無駄を回避する。
- 複数フレームへ拡張するため、時間的ボクセルグリッドを4Dテンソルとして積み重ね、早期フュージョンと遅延フュージョンの時間的集約スキームを比較する。
- BEV内で事前設定されたアンカーを用いたSSDスタイルのマルチボックス予測を拡張し、位置、サイズ、ヘディング(sin/cos)を滑らかなL1損失で予測する。
- 現在の検出と過去の未来予測を統合して追跡をデコードし、オクclusionsを通じて頑健な追跡IDを形成する。
- 現在フレームと将来フレームを跨ぐ分類と回帰項を組み合わせたジョイント損失で訓練する(n-frame forecasting)。
- 大規模な市街地規模のLiDARデータセットで検出、追跡、モーション予測を共同評価する。
実験結果
リサーチクエスチョン
- RQ1単一のエンドツーエンド3D CNNは、マルチフレーム LiDAR BEV表現から同時に検出、追跡、モーション予測を行えるか?
- RQ2検出、追跡、予測間で計算を共有することで、遮蔽や長距離の疎性に対する頑健性が向上しつつリアルタイムの待機目標を満たせるか?
- RQ3早期フュージョンと遅延フュージョンの時系列戦略は、精度と効率の点でどう比較されるか?
- RQ4FaFを用いた場合、検出のmAP、追跡指標、短期予測誤差の定量的な向上は、最先端ベースラインと比較してどの程度か?
主な発見
| モデル | IoU 0.5 | IoU 0.6 | IoU 0.7 | IoU 0.8 | IoU 0.9 | 時間 [ms] |
|---|---|---|---|---|---|---|
| SqueezeNet_v1.1 [12] | 85.80 | 81.06 | 69.97 | 43.20 | 3.70 | 9 |
| SSD [17] | 90.23 | 86.76 | 77.92 | 52.39 | 5.87 | 23 |
| MobileNet [10] | 90.56 | 87.05 | 78.39 | 52.10 | 5.64 | 65 |
| FaF | 93.24 | 90.54 | 83.10 | 61.61 | 11.83 | 30 |
- FaFは、3Dに適合した2D検出器よりも検出mAPが高く、待ち時間は同等かそれ以上に速く、IoU 0.7でベースラインを凌駕する。
- アブレーションでは、 late fusionは early fusionより+1.4% mAP、将来フレーム予測を追加すると IoU 0.7で単一フレーム検出器より約+6ポイントのmAP向上。
- 追跡性能はHungarianベースラインに対してMOTAで6%向上、Mostly-Tracked (MT)を20%増加。
- モーション予測は10フレーム先まで平均L2誤差0.33メートル未満を達成。
- FaFは最短30 msで動作し、自動運転におけるリアルタイムの共同検出、追跡、予測を実現。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。