Skip to main content
QUICK REVIEW

[논문 리뷰] Fully Sparse 3D Object Detection

Lue Fan, Feng Wang|arXiv (Cornell University)|2022. 07. 20.
Advanced Neural Network Applications인용 수 41
한 줄 요약

이 논문은 Sparse Instance Recognition(SIR)를 사용하여 긴 거리 LiDAR 3D 객체 탐지를 효율적으로 수행하는 Fully Sparse Detector(FSD)를 제안하여 Waymo Open Dataset에서 최첨단 결과를 달성하고 Argoverse 2에서도 선형 복잡도로 포인트에 대해 강력한 장거리 성능을 보인다.

ABSTRACT

As the perception range of LiDAR increases, LiDAR-based 3D object detection becomes a dominant task in the long-range perception task of autonomous driving. The mainstream 3D object detectors usually build dense feature maps in the network backbone and prediction head. However, the computational and spatial costs on the dense feature map are quadratic to the perception range, which makes them hardly scale up to the long-range setting. To enable efficient long-range LiDAR-based object detection, we build a fully sparse 3D object detector (FSD). The computational and spatial cost of FSD is roughly linear to the number of points and independent of the perception range. FSD is built upon the general sparse voxel encoder and a novel sparse instance recognition (SIR) module. SIR first groups the points into instances and then applies instance-wise feature extraction and prediction. In this way, SIR resolves the issue of center feature missing, which hinders the design of the fully sparse architecture for all center-based or anchor-based detectors. Moreover, SIR avoids the time-consuming neighbor queries in previous point-based methods by grouping points into instances. We conduct extensive experiments on the large-scale Waymo Open Dataset to reveal the working mechanism of FSD, and state-of-the-art performance is reported. To demonstrate the superiority of FSD in long-range detection, we also conduct experiments on Argoverse 2 Dataset, which has a much larger perception range ($200m$) than Waymo Open Dataset ($75m$). On such a large perception range, FSD achieves state-of-the-art performance and is 2.4$ imes$ faster than the dense counterpart. Codes will be released at https://github.com/TuSimple/SST.

연구 동기 및 목표

  • 밀집한 피처 맵을 제거함으로써 효율적인 장거리 LiDAR 기반 3D 객체 탐지를 촉진하고 Center Feature Missing (CFM)을 해결한다.
  • 비어 있지 않은 보셀과 인스턴스 그룹만을 처리하여 포인트 및 거리와 관련하여 거의 선형의 비용을 달성하는 완전 희소 탐지기를 개발한다.
  • Sparse Instance Recognition (SIR)을 제안하여 인스턴스 수준 피처를 추출하고 그룹화된 포인트로 바운딩 박스를 예측한다.
  • 제안된 방법이 Waymo에서 밀집 탐지기와 경쟁하거나 능가하고 Argoverse 2의 200m 범위 시나리오에서 두드러진 성능을 보임을 입증한다.
  • SIR이 무거운 다운샘플링이나 이웃 질의 없이도 효율적이고 정확한 장거리 탐지를 가능하게 함을 보인다.

제안 방법

  • 희소 보셀 인코더를 사용하여 보셀 피처를 추출하고 VoteNet과 유사한 중심 투표를 수행한다.
  • 연결 성분 라벨링 (CCL)을 통해 투표된 중심을 인스턴스로 묶어 서로 배타적인 인스턴스 그룹을 형성한다.
  • 동적 브로드캐스트/풀링으로 인스턴스 피처를 추출하기 위해 Sparse Instance Recognition (SIR)을 적용하여 그룹당 단일 바운딩 박스 예측을 생성한다.
  • 선택적으로 두 번째 SIR(SIR2)로 제안들을 보정하고 박스 잔차를 회귀하며 분류에 IoU 기반 소프트 레이블을 사용한다.
  • Semantic 분류, 투표, 3D 회귀, 그리고 IoU 기반 감독을 포함한 손실의 조합으로 학습한다.

실험 결과

연구 질문

  • RQ1현시점에서 장거리 LiDAR 데이터에 대해 밀집 BEV 피처 맵 없이도 완전 희소 탐지기가 밀집 탐지기보다 성능을 능가할 수 있는가?
  • RQ2SIR이 Center Feature Missing을 효과적으로 완화하고 희소 그룹에서 인스턴스 수준 예측을 가능하게 하는가?
  • RQ3FSD는 장거리 벤치마크(예: Argoverse 2)에서 정확도와 속도 측면에서 최신 방법과 비교해 어떤 성능을 보이는가?
  • RQ4대형 물체와 소형 물체에 대한 탐지 성능에 대해 그룹화 품질과 SIR 설계의 영향은 무엇인가?

주요 결과

  • FSD는 테스트 타임 보강 없이 주류 탐지기 가운데 Waymo Open Dataset에서 최첨단 성능을 달성한다.
  • Argoverse 2에서 FSD는 강력한 장거리 탐지(최대 200 m)를 제공하고 밀집 비교 대상보다 2.4배 더 빠르게 실행된다.
  • 확산 기반 중심 피처를 SIR로 대체하면 대형 객체 재현율이 크게 향상되어 Center Feature Missing을 해결한다.
  • 동적 브로드캐스트/풀링은 포인트 샘플링이나 패딩 없이도 효율적인 인스턴스 수준 피처 추출을 가능하게 하여 입력 포인트가 많아도 높은 충실도를 유지한다.
  • 그룹화와 SIR의 결합은 그룹화만 또는 SIR만을 사용할 때보다 상당한 이득을 가져오며 끝에서 끝까지의 인스턴스 수준 처리의 중요성을 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.