Skip to main content
QUICK REVIEW

[論文レビュー] RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving

Peixuan Li, Huaici Zhao|arXiv (Cornell University)|Jan 10, 2020
Advanced Neural Network Applications参考文献 46被引用数 51
ひとこと要約

RTM3Dは、3Dボックスから投影された九つのキーポイントを予測し、幾何再射影制約を用いて3D姿勢・サイズ・位置を回復するワンステージのモノキュラー3D物体検出器を提示し、追加の監視データなしでKITTIでリアルタイム性能を達成する。

ABSTRACT

In this work, we propose an efficient and accurate monocular 3D detection framework in single shot. Most successful 3D detectors take the projection constraint from the 3D bounding box to the 2D box as an important component. Four edges of a 2D box provide only four constraints and the performance deteriorates dramatically with the small error of the 2D detector. Different from these approaches, our method predicts the nine perspective keypoints of a 3D bounding box in image space, and then utilize the geometric relationship of 3D and 2D perspectives to recover the dimension, location, and orientation in 3D space. In this method, the properties of the object can be predicted stably even when the estimation of keypoints is very noisy, which enables us to obtain fast detection speed with a small architecture. Training our method only uses the 3D properties of the object without the need for external networks or supervision data. Our method is the first real-time system for monocular image 3D detection while achieves state-of-the-art performance on the KITTI benchmark. Code will be released at https://github.com/Banconxuan/RTM3D.

研究の動機と目的

  • 自動運転においてLiDARや広範な外部データに頼らず、画像ベースの手掛かりを用いたリアルタイムのモノキュラー3D検出を動機づける。
  • 透視投影下で、3D境界ボックス推定をキーポイント検出とエネルギー最小化問題として定式化する。
  • 追加のネットワークや注釈に依存せず、3Dキーポイント検出に特化した高速なワンステージネットワークを開発する。
  • 幾何学的最適化パイプラインを通じて、ノイズの多いキーポイントや小さな2D局所化誤差に対するロバスト性を向上させる。

提案手法

  • 1 ステージのCNNで、画像内の3D境界ボックスの9つの透視キーポイント(8つの頂点と中心)を予測する。
  • 新規のKeypoint Feature Pyramid Network (KFPN)を使用し、2D FPNに依存せずに、スケール不変かつマルチスケールのキーポイント応答を作成する。
  • 3Dボックス推定をSE(3)での非線形最小二乗最適化として定式化し、カメラ点再投影誤差と寸法・深度・方位に関するオプションの事前情報を組み合わせる。
  • ネットワークが予測した事前情報で幾何最適化を初期化し、g2oでGauss-Newton/Levenberg-Marquardtによる高速収束を可能にする。
  • 焦点損失をキーポイント熱マップに、寸法・深度・オフセットには外部 supervision data なしで回帰損失を用いて訓練する。
  • 投影の整合性と事前情報を同時に最適化するエネルギー関数を取り入れ、精度と速度を向上させる。

実験結果

リサーチクエスチョン

  • RQ1外部深度データなしで、画像RGBのみのキーポイント表現から透視幾何学だけで正確な3D境界ボックスを回復できるか?
  • RQ2ワンステージ、キーポイントベースの検出器と幾何再投影エネルギー段を組み合わせると、KITTIで実時間実行を達成し、画像ベースの3D検出器と同等かそれ以上を達成できるか?
  • RQ3オプションの事前情報(寸法、方位、深度)とキーポイントのオフセットは、3D検出精度と推論速度にどのような影響を与えるか?

主な発見

  • この手法はRGB画像のみでKITTI上のリアルタイム性能を達成している。
  • 9つの2Dキーポイント(8つの3Dボックス頂点と中心)を予測することで、3D特性を回復するのに十分な18の幾何制約を得る。
  • KFPNを備えたワンステージのキーポイントネットワークと幾何再投影エネルギー関数は、同等の速度で画像ベースの多くの手法をAP3DとAPBEVで上回る。
  • 寸法・方位・深度の事前情報とキーポイントオフセットを組み込むことで精度が向上し、最適化の初期化が良好なため推論速度を維持する。
  • KFPNはEasy/Moderate/Hard全体で3D APスコアを改善し、実行時間にはわずかな変化しかない。
  • ステレオ/LiDARベースのアプローチと比較して、RTM3Dは単眼法の中で速度が大幅に高く、3D検出精度も競争力がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。