QUICK REVIEW

[論文レビュー] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

Yue Wang, Vitor Campagnolo Guizilini|arXiv (Cornell University)|Oct 13, 2021

Advanced Vision and Imaging被引用数 74

ひとこと要約

DETR3Dは、多視点RGB画像からトップダウンでNMS不要の3D物体検出フレームワークを提供します。 sparse 3D object queriesがカメラ間で2D特徴へバックプロジェクションされ、トランスフォーマーを介して情報を統合します。

ABSTRACT

We introduce a framework for multi-camera 3D object detection. In contrast to existing works, which estimate 3D bounding boxes directly from monocular images or use depth prediction networks to generate input for 3D object detection from 2D information, our method manipulates predictions directly in 3D space. Our architecture extracts 2D features from multiple camera images and then uses a sparse set of 3D object queries to index into these 2D features, linking 3D positions to multi-view images using camera transformation matrices. Finally, our model makes a bounding box prediction per object query, using a set-to-set loss to measure the discrepancy between the ground-truth and the prediction. This top-down approach outperforms its bottom-up counterpart in which object bounding box prediction follows per-pixel depth estimation, since it does not suffer from the compounding error introduced by a depth prediction model. Moreover, our method does not require post-processing such as non-maximum suppression, dramatically improving inference speed. We achieve state-of-the-art performance on the nuScenes autonomous driving benchmark.

研究の動機と目的

RGB画像から密な深度予測や点群再構成なしに3D物体検出を動機付ける。
2D特徴を複数のカメラ間でバックワードプロジェクションを介して3Dボックスに結びつける、トップダウンのセットベース検出ヘッドを提案する。
非最大抑制のようなポスト処理を排除して推論速度を向上させる。
nuScenesで最先端の性能を示し、オーバーラップ領域と疑似LiDARの比較を分析する。

提案手法

共有ResNetとFPNを用いて多視点RGB特徴を抽出する。
3D参照点へデコードする疎な3D物体クエリを初期化する。
既知のカメラ行列を用いて3D参照点を全カメラ視点へ投影し、双線形補間で画像特徴をサンプリングする。
複数レイヤーを通じた反復的自己注意を介して、マルチビュー情報を組み込みつつ物体クエリを精錬する。
各レイヤーの出力を用いてクエリごとに3D境界ボックスとクラスラベルを予測し、セット対セット損失（Hungarianマッチング）で訓練する。

実験結果

リサーチクエスチョン

RQ1多視点RGB画像から深度予測やポスト処理なしで、3D空間で直接効果的に3D物体検出を実現できるか。
RQ2計算の各レイヤーでマルチビュー情報を統合すると、特にカメラの重複領域で精度が向上するか。
RQ3NMS不要のセットベースヘッドは、nuScenes上の従来のNMSベースのマルチビュー融合手法と比べてどうか。
RQ4反復的な洗練と物体クエリの数は検出性能にどのような影響を与えるか。
RQ5DETR3Dは深度推定に依存する疑似LiDARアプローチと比べてどうか。

主な発見

Method	NDS ↑	mAP ↑	mATE ↓	mASE ↓	mAOE ↓	mAVE ↓	mAAE ↓	NMS
CenterNet	0.328	0.306	0.716	0.264	0.609	1.426	0.658	✓
FCOS3D	0.373	0.299	0.785	0.268	0.557	1.396	0.154	✓
FCOS3D	0.393	0.321	0.746	0.265	0.503	1.351	0.160	✓
FCOS3D S	0.402	0.326	0.743	0.259	0.441	1.341	0.163	✓
FCOS3D P	0.415	0.343	0.725	0.263	0.422	1.292	0.153	✓
DETR3D (Ours)	0.374	0.303	0.860	0.278	0.437	0.967	0.235	-
DETR3D (Ours)	0.425	0.346	0.773	0.268	0.383	0.842	0.216	-
DETR3D (Ours) #	0.434	0.349	0.716	0.268	0.379	0.842	0.200	-

DETR3DはNMSのようなポスト処理なしでnuScenesで最先端の性能を達成する。
重なり領域で、DETR3Dは深度ベースの融合手法を大幅に上回る。
モデルは明示的な深度予測なしでも堅牢で、各計算レイヤーで統合されたマルチビュー情報の恩恵を受ける。
6層のDETR3Dを通じた反復的洗練によりNDSとmAPが向上し、クエリ数が飽和に達するまで向上を続ける。
疑似LiDARのベースラインと比較して、DETR3DはNDSとmAPの点で大幅に優れている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。