QUICK REVIEW

[논문 리뷰] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

Yue Wang, Vitor Campagnolo Guizilini|arXiv (Cornell University)|2021. 10. 13.

Advanced Vision and Imaging인용 수 74

한 줄 요약

DETR3D는 다중 뷰 RGB 이미지를 사용하여 희소 3D 객체 쿼리가 카메라 간 2D 특징으로 역투영되고 트랜스포머를 통해 정보를 융합함으로써 NMS가 필요 없는 상향식 3D 객체 탐지 프레임워크를 제공합니다.

ABSTRACT

We introduce a framework for multi-camera 3D object detection. In contrast to existing works, which estimate 3D bounding boxes directly from monocular images or use depth prediction networks to generate input for 3D object detection from 2D information, our method manipulates predictions directly in 3D space. Our architecture extracts 2D features from multiple camera images and then uses a sparse set of 3D object queries to index into these 2D features, linking 3D positions to multi-view images using camera transformation matrices. Finally, our model makes a bounding box prediction per object query, using a set-to-set loss to measure the discrepancy between the ground-truth and the prediction. This top-down approach outperforms its bottom-up counterpart in which object bounding box prediction follows per-pixel depth estimation, since it does not suffer from the compounding error introduced by a depth prediction model. Moreover, our method does not require post-processing such as non-maximum suppression, dramatically improving inference speed. We achieve state-of-the-art performance on the nuScenes autonomous driving benchmark.

연구 동기 및 목표

RGB 이미지에서 밀집 깊이 예측이나 포인트 클라우드 재구성 없이 3D 객체 탐 detectors를 촉진한다.
여러 카메라에 걸친 역투영을 통해 2D 특징을 3D 박스와 연결하는 상향식(탑다운) 세트 기반 검출 헤드를 제안한다.
추론 속도를 개선하기 위해 NMS와 같은 후처리를 제거한다.
nuScenes에서 최첨단 성능을 입증하고 겹침 영역 및 pseudo-LiDAR 비교를 분석한다.

제안 방법

공유된 ResNet과 FPN으로 다중 뷰 RGB 특징을 추출한다.
해독되는 희소한 3D 객체 쿼리 집합을 초기화한다.
알려진 카메라 행렬을 사용해 3D 참조점을 모든 카메라 뷰로 투영하고 양선형 보간으로 이미지 특징을 샘플링한다.
다중 뷰 정보를 포함하며 계층 간 반복적 자기 주의를 통해 객체 쿼리를 정제한다.
레이어별 출력으로 쿼리당 3D 바운딩 박스와 클래스 레이블을 예측하고 세트-투-세트 손실(Hungarian 매칭)로 학습한다.

실험 결과

연구 질문

RQ1다중 뷰 RGB 이미지에서 깊이 예측이나 후처리 없이도 3D 공간에서 3D 객체 탐지를 효과적으로 달성할 수 있는가?
RQ2계산의 모든 계층에서 다중 뷰 정보를 통합하는 것이 특히 카메라 중첩 영역에서 정확도를 향상시키는가?
RQ3NMS 없는 세트 기반 헤드가 nuScenes에서 전통적인 NMS 기반 다중 뷰 융합 방법과 어떤 차이를 보이는가?
RQ4반복적 정제와 객체 쿼리 수가 탐지 성능에 어떤 영향을 미치는가?
RQ5Depth 추정에 의존하는 pseudo-LiDAR 방식과 DETR3D는 어떻게 비교되는가?

주요 결과

Method	NDS ↑	mAP ↑	mATE ↓	mASE ↓	mAOE ↓	mAVE ↓	mAAE ↓	NMS
CenterNet	0.328	0.306	0.716	0.264	0.609	1.426	0.658	✓
FCOS3D	0.373	0.299	0.785	0.268	0.557	1.396	0.154	✓
FCOS3D	0.393	0.321	0.746	0.265	0.503	1.351	0.160	✓
FCOS3D S	0.402	0.326	0.743	0.259	0.441	1.341	0.163	✓
FCOS3D P	0.415	0.343	0.725	0.263	0.422	1.292	0.153	✓
DETR3D (Ours)	0.374	0.303	0.860	0.278	0.437	0.967	0.235	-
DETR3D (Ours)	0.425	0.346	0.773	0.268	0.383	0.842	0.216	-
DETR3D (Ours) #	0.434	0.349	0.716	0.268	0.379	0.842	0.200	-

DETR3D는 NMS와 같은 후처리 없이 nuScenes에서 최첨단 성능을 달성한다.
중첩 영역에서 DETR3D는 깊이 기반 융합 방법을 상당히 능가한다.
명시적 깊이 예측 없이도 모델은 견고하며 각 계산 계층에서 융합된 다중 뷰 정보를 통해 이점을 얻는다.
6개의 DETR3D 레이어에 걸친 반복적 정제는 NDS와 mAP를 향상시키며, 더 많은 쿼리가 포화 지점까지 성능을 계속 향상시킨다.
pseudo-LiDAR 기반의 기준선과 비교할 때 NDS와 mAP 측면에서 DETR3D가 상당히 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.