Skip to main content
QUICK REVIEW

[논문 리뷰] IPOD: Intensive Point-based Object Detector for Point Cloud

Zetong Yang, Yanan Sun|arXiv (Cornell University)|2018. 12. 13.
Remote Sensing and LiDAR Applications참고 문헌 33인용 수 132
한 줄 요약

IPOD는 원시 포인트 클라우드의 모든 지점에서 객체 제안을 생성하고, 포인트 기반 백본으로 제안 특징을 컨텍스트와 함께 추출하고, 엔드-투-엔드로 3D 바운딩 박스를 예측합니다. KITTI에서 특히 하드 샘플에서 최첨단 결과를 달성합니다.

ABSTRACT

We present a novel 3D object detection framework, named IPOD, based on raw point cloud. It seeds object proposal for each point, which is the basic element. This paradigm provides us with high recall and high fidelity of information, leading to a suitable way to process point cloud data. We design an end-to-end trainable architecture, where features of all points within a proposal are extracted from the backbone network and achieve a proposal feature for final bounding inference. These features with both context information and precise point cloud coordinates yield improved performance. We conduct experiments on KITTI dataset, evaluating our performance in terms of 3D object detection, Bird's Eye View (BEV) detection and 2D object detection. Our method accomplishes new state-of-the-art , showing great advantage on the hard set.

연구 동기 및 목표

  • 보셀화나 투영 없이 원시 포인트 클라우드에서 직접 3D 물체 탐지를 수행하는 것을 목표로 한다.
  • 위치 정확도와 높은 재현율을 유지하기 위한 포인트당 제안 생성 전략을 개발한다.
  • 맥락과 정확한 포인트 좌표를 함께 활용하여 제안 특징을 추출하는 엔드-투-엔드 아키텍처를 설계한다.
  • 새로운 라벨링 및 정렬 스킴을 통해 포인트 기반 제안의 중복성과 모호성을 해결한다.
  • 가려짐과 혼잡한 환경에서도 KITTI에서 Car, Pedestrian, Cyclist 과제의 최첨단 성능을 입증한다.

제안 방법

  • 다중 스케일, 다중 각도 시프트를 사용하여 각 포인트의 중심에서 객체 제안을 시드(seed)한다.
  • 배경 포인트를 필터링하고 높은 재현율을 유지하기 위해 서브샘플링 네트워크를 사용한다(KITTI에서 96.0%).
  • 원시 포인트 클라우드로부터 각 포인트 특징을 추출하기 위해 PointNet++ 백본을 사용한다.
  • 고수준 컨텍스트 특징과 표준화된 포인트 좌표 및 T-Net 중심 잔차를 결합하여 제안 특징을 생성한다.
  • 다중 작업 손실(L_cls, L_loc, L_ang, L_cor, L_corner)을 사용하여 각 제안에 대한 클래스, 크기 비율, 중심 잔차 및 방향을 예측한다.
  • 제안을 정렬하고 포인트 수준 겹침을 더 잘 반영하기 위해 일반 박스 IoU가 아닌 PointsIoU를 사용하여 양성/음성 라벨을 할당한다.

실험 결과

연구 질문

  • RQ1보셀화나 투영 없이 원시 포인트 클라우드에서 포인트당 제안 생성 패러다임이 더 높은 재현율과 더 나은 3D 탐지, BEV 및 2D 지표를 달성할 수 있는가?
  • RQ2제안 표현에 컨텍스트 특징과 표준화된 포인트 좌표를 포함시키는 것이 위치 추정과 분류를 개선하는가?
  • RQ3PointsIoU 기반 라벨링이 전통적인 IoU 기반 라벨링에 비해 학습 안정성 및 최종 탐지 성능에 어떤 영향을 미치는가?
  • RQ4서브샘플링, 제안 특징 설계 및 백본 선택이 KITTI의 Car, Pedestrian, Cyclist 탐지 성능에 어떤 영향을 미치는가?

주요 결과

MethodAP2D_EasyAP2D_ModerateAP2D_HardAPBEV_EasyAPBEV_ModerateAPBEV_HardAP3D_EasyAP3D_ModerateAP3D_Hard
Ours90.2089.3087.3786.9383.9877.8579.7572.5766.33
  • KITTI에서 최첨단 성능을 달성하고, 하드 서브셋에서 2D, BEV, 3D AP가 기존 방법들에 비해 상당한 향상을 보인다.
  • F-PointNet 및 다중 뷰 방법을 능가하며, 특히 보행자 및 혼잡한 장면에서 우수하다.
  • 투영 기반 전처리 없이도 높은 재현율(96.0%)을 시연한다.
  • 어블레이션은 PointsIoU 라벨링과 고수준 컨텍스트 특징의 표준화된 좌표와의 결합이 AP를 유의하게 향상시킴을 보인다(표 3 및 표 5).
  • KITTI 검증 세트에서 Easy/Moderate/Hard 수준에 걸쳐 3D 및 BEV 탐지에서 VoxelNet 및 AVOD 기준선을 상회한다(Car, Pedestrian, Cyclist).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.