QUICK REVIEW

[論文レビュー] Joint 3D Proposal Generation and Object Detection from View Aggregation

Jason S. Ku, Melissa Mozifian|arXiv (Cornell University)|Dec 6, 2017

Advanced Neural Network Applications参考文献 18被引用数 135

ひとこと要約

AVOD は高解像度の LiDAR BEV と RGB 画像特徴を二段階ネットワーク（RPN と第二段検出器）で統合し、3D 提案を生成し向きを持つ 3D 境界ボックスを正確に検出する。KITTI における最先端の結果をリアルタイム性能で達成。

ABSTRACT

We present AVOD, an Aggregate View Object Detection network for autonomous driving scenarios. The proposed neural network architecture uses LIDAR point clouds and RGB images to generate features that are shared by two subnetworks: a region proposal network (RPN) and a second stage detector network. The proposed RPN uses a novel architecture capable of performing multimodal feature fusion on high resolution feature maps to generate reliable 3D object proposals for multiple object classes in road scenes. Using these proposals, the second stage detection network performs accurate oriented 3D bounding box regression and category classification to predict the extents, orientation, and classification of objects in 3D space. Our proposed architecture is shown to produce state of the art results on the KITTI 3D object detection benchmark while running in real time with a low memory footprint, making it a suitable candidate for deployment on autonomous vehicles. Code is at: https://github.com/kujason/avod

研究の動機と目的

2D 検出の進展と 3D 検出のギャップを、マルチモーダルデータ（LiDAR と画像）を活用して埋める。
BEV と画像空間の高解像度・低フットプリントの特徴抽出器を開発する。
道路シーンで小さな物体クラスのリコールを高めるマルチモーダル RPN を設計する。
コンパクトで物理的に一貫した 3D ボックスエンコードと明示的な向き回帰を提案する。
KITTI での厳しい条件下でのリアルタイム性能と頑健性を実証する。

提案手法

ボクセル化した LiDAR データから高さと密度チャンネルを持つ六チャネルの BEV マップを生成する。
エンコーダ-デコーダ（FPN に触発された）で高解像度の特徴抽出を行い、両ビュ―に対して共有特徴マップを作成する。
マルチモーダル融合 RPN を実装し、3D アンカーを BEV および画像特徴マップへ投影し、次元削減のため 1×1 の畳み込みを適用し、Crop-and-Resize によるクロップを用いて 3D 提案を予測する。
BEV でサンプリングされた軸に揃えた 3D アンカーを用い、リコール重視の学習とアンカーの 2D BEV IoU ベースの剪定を行う。
2 段階検出器を使用し、4 コーナーのボックスエンコードに加え、上部・下部の高さオフセットと明示的な方向ベクトル（cosθ, sinθ）回帰を用いて向きの曖昧性を解消する。
RPN と検出器を multitask 損失（ボックスパラメータには Smooth L1、物体性/分類にはクロスエントロピー）と 2D BEV NMS によってエンドツーエンドで jointly 学習する。

実験結果

リサーチクエスチョン

RQ1高解像度 BEV LiDAR特徴と RGB 画像特徴のマルチモーダル融合は自動運転における 3D 提案のリコールと最終的な 3D 検出を改善するか。
RQ2高解像度の特徴抽出器と multiview RPN の組み合わせは道路シーンの小さな物体の定位と向き推定を改善するか。
RQ34 コーナーのコンパクトな 3D ボックスエンコードと明示的な向き回帰が 3D 検出性能と向き精度に与える影響は何か。
RQ4AVOD アプローチは標準ハードウェアでの小さなメモリフットプリントと実時間推論を実現しつつ、最先端の精度を維持できるか。

主な発見

Feature Pyramid 融合 RPN はフレームあたりわずか 10 提案で車両に対する 3D リコールを 86% に達成する。
AVOD は 3D 提案リコールにおいて car・pedestrian・cyclist クラスを横断して 3DOP および Mono3D を上回る。
KITTI バリデーションで、Feature Pyramid を備えた AVOD は車両の 3D AP および BEV AP の最先端を示し、 pedestrians に対しては高解像度抽出器の貢献で強力な結果を示す。
KITTI テストセットで、AVOD（Feature Pyramid）は車両と歩行者の 3D AP および BEV AP でリーディングを取り、cyclists で競争力のある結果を示し、 TITAN Xp での実行時間は 0.1s/フレームと好ましい。
提案された 4 コーナー plus 上下の高さエンコードと明示的な向き回帰は、従来のエンコードと比較して向きの精度を向上させ、曖昧さを減少させる。
高解像度の特徴抽出器は小クラス（歩行者、自転車）での性能を大幅に向上させ、計算量とメモリの増加を抑えつつ性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。