QUICK REVIEW

[논문 리뷰] Unifying Voxel-based Representation with Transformer for 3D Object Detection

Yanwei Li, Yilun Chen|arXiv (Cornell University)|2022. 06. 01.

Advanced Neural Network Applications인용 수 127

한 줄 요약

UVTR은 LiDAR와 카메라를 포함한 다중 모달 입력을 공유 3D 보셀 공간에서 통합하고 객체 레벨 탐지 및 추적을 위해 트랜스포머 디코더를 사용하며 단일 및 다중 모달 설정에서 nuScenes 결과를 선도적으로 달성합니다.

ABSTRACT

In this work, we present a unified framework for multi-modality 3D object detection, named UVTR. The proposed method aims to unify multi-modality representations in the voxel space for accurate and robust single- or cross-modality 3D detection. To this end, the modality-specific space is first designed to represent different inputs in the voxel feature space. Different from previous work, our approach preserves the voxel space without height compression to alleviate semantic ambiguity and enable spatial connections. To make full use of the inputs from different sensors, the cross-modality interaction is then proposed, including knowledge transfer and modality fusion. In this way, geometry-aware expressions in point clouds and context-rich features in images are well utilized for better performance and robustness. The transformer decoder is applied to efficiently sample features from the unified space with learnable positions, which facilitates object-level interactions. In general, UVTR presents an early attempt to represent different modalities in a unified framework. It surpasses previous work in single- or multi-modality entries. The proposed method achieves leading performance in the nuScenes test set for both object detection and the following object tracking task. Code is made publicly available at https://github.com/dvlab-research/UVTR.

연구 동기 및 목표

LiDAR와 카메라 데이터 간의 모달리티 차이를 연결하기 위해 통일된 보셀 기반 표현을 제시한다.
높이 압축 없이 3D 보셀 공간을 보존하여 의미론적 모호성을 줄인다.
통일된 공간에서 교차 모달 지식 전달 및 특징 융합을 가능하게 한다.
효율적인 객체 단위 상호 작용 및 예측을 위해 트랜스포머 디코더를 활용한다.
nuScenes에서 단일 및 다중 모달 3D 탐지 및 추적에서 강한 성능 향상을 보여준다.

제안 방법

예측된 깊이 분포 및 기하 제약에 따라 이미지 특징을 샘플링하여 보셀 공간에 표현하고, V_I를 형성한다.
다중 스케일 보셀 백본으로 포인트 클라우드를 보셀 공간에 표현하여 V_P를 형성한다.
각 모달리티별 보셀 공간 내 공간 상호 작용을 가능하게 하기 위해 보셀 인코더를 적용한다.
통합 보셀 공간 V_U에서 지식 전달(teacher-student)과 특징 융합을 통해 교차 모달 상호 작용을 가능하게 한다.
학습 가능한 3D 참조 지점에서 특징을 샘플링하기 위해 변형 가능한 트랜스포머 디코더를 사용하고, 객체 질의에 대해 반복적 박스 정제를 수행한다.
탐지를 위한 헝가리안 세트 투 세트 손실로 최적화하고, 교차 모달 지식 전달을 위한 선택적 L_KT 손실을 사용할 수 있다.

실험 결과

연구 질문

RQ1통합된 보셀 기반 표현이 LiDAR와 카메라 데이터를 3D 객체 탐지에 효과적으로 융합할 수 있는가?
RQ2높이 압축 없이 3D 보셀 공간을 보존하는 것이 3D 추론을 개선하고 의미론적 모호성을 줄이는가?
RQ3교차 모달 지식 전달 및 모달리티 융합이 단일 및 다중 모달 입력에서 탐지 강건성과 정확도에 어떤 영향을 주는가?
RQ4통합 보셀 공간에서 다중 프레임 입력이 탐지 및 추적에서 어떤 이득을 제공하는가?

주요 결과

UVTR은 nuScenes 밸리데이션에서 LiDAR 기반 탐지에 대해 69.7% NDS와 63.9% mAP를 달성하고, nuScenes 테스트에서 다중 모달 입력으로 71.1% NDS를 달성한다.
카메라 기반 UVTR-C는 다중 카메라 스윕에서 nuScenes 테스트에서 55.1% NDS에 도달하고, UVTR-M(다중 모달)은 nuScenes 테스트에서 71.1% NDS와 67.1% mAP를 달성한다.
지식 전달 및 모달리티 융합은 설정 전반에 걸쳐 일관된 향상을 제공하며, 다중 모달 가이던스를 사용할 때 최대 2.6% NDS 및 1.8% mAP 이득이 있다.
다중 프레임 입력은 성능을 크게 향상시키며, LiDAR에서 스윕 증가 시 최대 18.1% NDS, 카메라에서 5%+ NDS의 이득을 제공한다.
UVTR은 간단한 탐욕적 추적기를 사용해도 강력한 트래킹 성능을 보이며, 예를 들어 UVTR-M으로 nuScenes에서 LiDAR+카메라에 대해 70.1 AMOTA를 기록한다.
카메라 시야 이탈 및 센서 보정 잡음 하에서도 특히 다중 모달 설정에서 강건함을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.