Skip to main content
QUICK REVIEW

[論文レビュー] Monocular 3D Object Detection and Box Fitting Trained End-to-End Using Intersection-over-Union Loss

Eskil Jörgensen, Christopher Zach|arXiv (Cornell University)|Jun 19, 2019
Advanced Neural Network Applications参考文献 35被引用数 65
ひとこと要約

tldr: SS3Dを紹介します。代理ターゲットを回帰し、微分可能なオプティマイザで3Dボックスを適合させる単段の単眼3D検出器で、3D IoU損失を用いてエンドツーエンドで訓練され、実時間速度(約20 FPS)で KITTI の単眼領域の最先端結果を達成します。

ABSTRACT

Three-dimensional object detection from a single view is a challenging task which, if performed with good accuracy, is an important enabler of low-cost mobile robot perception. Previous approaches to this problem suffer either from an overly complex inference engine or from an insufficient detection accuracy. To deal with these issues, we present SS3D, a single-stage monocular 3D object detector. The framework consists of (i) a CNN, which outputs a redundant representation of each relevant object in the image with corresponding uncertainty estimates, and (ii) a 3D bounding box optimizer. We show how modeling heteroscedastic uncertainty improves performance upon our baseline, and furthermore, how back-propagation can be done through the optimizer in order to train the pipeline end-to-end for additional accuracy. Our method achieves SOTA accuracy on monocular 3D object detection, while running at 20 fps in a straightforward implementation. We argue that the SS3D architecture provides a solid framework upon which high performing detection systems can be built, with autonomous driving being the main application in mind.

研究の動機と目的

  • ロボティクス/自動運転における低コストな知覚のための単眼3D物体検出を動機づける。
  • 正確な3Dボックスフィッティングのために代理の3D表現を回帰する、軽量な単段CNNを提案する。
  • IoU損失を用いた非線形最小二乗法の3Dボックスオプティマイザを介したエンドツーエンド訓練を可能にする。
  • 回帰信頼性を向上させるため、不確実性をモデル化・比較する(ホモスケダス/ヘテロスケダス)。
  • 単眼KITTIで最先端性能とリアルタイム動作を実証する。

提案手法

  • 単段CNN(SS3D)は検出ごとに26個の代理回帰ターゲットとクラススコアを出力する。
  • 非最大抑制(NMS)の後、検出ごとに並列に非線形最小二乗法による3Dボックスフィッティングを行う。
  • 3Dボックスのパラメータは、ターゲットごとの不確実性を反映した重みを用いた重み付き最小二乗目標 E(b;y) を最小化することで推定される。
  • IoU loss (IoU3D) を用いて最適化子を介してバックプロパゲーションするエンドツーエンド訓練。
  • 三つの訓練バリアント: (i) 回帰のホモスケダスノイズ, (ii) 出力ごとのヘテロスケダス不確実性, (iii) IoU損失で最適化を通じての逆伝播を含む訓練。
  • 代理ターゲットには、相対的な2Dボックス座標、距離 d、観測角度(sin, cos)、対数サイズターゲット、ピクセル相対ターゲットとしての3Dコーナープロジェクションを含む。

実験結果

リサーチクエスチョン

  • RQ1単段の単眼検出器が、代理の3D表現を回帰し、検出後に3Dボックスを適合させることで競争力のある3D検出を生み出せるか?
  • RQ2出力ごとの不確実性(ホモ/ヘテロ)をモデル化することは、3Dボックス適合と全体の検出精度を向上させるか?
  • RQ3微分可能な3Dボックスオプティマイザを通じたエンドツーエンド訓練は、KITTI上の単眼3D物体検出に有益か?
  • RQ4KITTIでの3D IoU、AP、ALPにおいて、SS3Dは従来の単眼およびステレオ法とどう比較されるか?
  • RQ5リアルタイムの単眼知覚におけるSS3Dの速度と精度のトレードオフはどうなるか?

主な発見

MethodTimeEasyModerateHard
0.048s11.54 / 8.6611.07 / 7.3510.12 / 5.98
0.051s13.90 / 9.5512.05 / 8.0711.64 / 6.99
0.051s14.52 / 9.4513.15 / 8.4211.85 / 7.34
  • SS3Dは公開済みの単眼法の中でKITTIにおける単眼3D検出性能の最先端を達成。
  • 3つの方法は段階的な向上を示し、Method 3(エンドツーエンドIoU訓練)が最良。
  • 推論時間は画像あたり約0.051秒で、約20 FPSの動作を実現。
  • 学習された不確実性はターゲットタイプに一致する(例:ピクセル空間ターゲットには分散が大きい、距離の不確実性は距離とともに増大)。
  • 3Dボックスオプティマイザを介したエンドツーエンド訓練は、非エンドツーエンド訓練よりさらなる改善をもたらす。
  • ステレオベースラインと比べ、SS3DはKITTIの単眼評価で競争力があり、かつはるかに高速。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。