QUICK REVIEW

[논문 리뷰] PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud

Shaoshuai Shi, Xiaogang Wang|arXiv (Cornell University)|2018. 12. 11.

3D Shape Modeling and Analysis참고 문헌 44인용 수 161

한 줄 요약

PointRCNN은 원시 포인트 클라우드에서 직접 바텀업(bottom-up) 3D 제안을 생성하고 이를 표준 좌표계에서 다듬는 2단계 3D 탐지 프레임워크로, LiDAR 포인트 클라우드만 사용해 KITTI에서 최첨단 결과를 달성합니다.

ABSTRACT

In this paper, we propose PointRCNN for 3D object detection from raw point cloud. The whole framework is composed of two stages: stage-1 for the bottom-up 3D proposal generation and stage-2 for refining proposals in the canonical coordinates to obtain the final detection results. Instead of generating proposals from RGB image or projecting point cloud to bird's view or voxels as previous methods do, our stage-1 sub-network directly generates a small number of high-quality 3D proposals from point cloud in a bottom-up manner via segmenting the point cloud of the whole scene into foreground points and background. The stage-2 sub-network transforms the pooled points of each proposal to canonical coordinates to learn better local spatial features, which is combined with global semantic features of each point learned in stage-1 for accurate box refinement and confidence prediction. Extensive experiments on the 3D detection benchmark of KITTI dataset show that our proposed architecture outperforms state-of-the-art methods with remarkable margins by using only point cloud as input. The code is available at https://github.com/sshaoshuai/PointRCNN.

연구 동기 및 목표

이미지 기반의 제안이나 보셀화 없이 원시 LiDAR 포인트 클라우드에서 직접 견고한 3D 객체 탐지를 추진한다.
전경 포인트를 세분화하고 높은 재현율의 제안을 생성하는 바텀업 3D 제안 생성 모듈을 제안한다.
상자 회귀 및 신뢰도 추정을 위한 정확한 지역 특징을 학습하는 정준 좌표 보정 단계를 개발한다.
3D 상자 중심과 방향의 학습을 안정화하고 가속화하기 위한 빈(bin) 기반 위치 추정 손실을 도입한다.
포인트 클라우드만을 사용하여 KITTI 3D 객체 탐지 벤치마크에서 최첨단 성능을 입증한다.

제안 방법

전경 세분화와 포인트별 특징을 통해 원시 포인트 클라우드에서의 바텀업 3D 제안 생성.
다중 스케일 그룹링을 갖춘 PointNet++ 기반 백본으로 포인트별 특징 추출.
전경 분할은 불균형을 다루기 위해 focal 손실을 사용하여 실제 3D 상자(ground-truth)로 감독한다.
중심(x,z) 및 방향(theta)에 대한 3D 상자 제안의 빈 기반 회귀와 분류 + 잔차 항.
조감도(BEV)에서 비 최대 억제(NMS)를 적용해 2단계 보완용 고품질 제안을 선택.
확장된 제안 내에서 패치 기반 영역 풀링으로 정준 좌표에서의 보정에 필요한 로컬 포인트 및 특징을 수집.
풀링된 점들의 정합(정준) 변환을 통해 자세 변화(pose variation)를 줄이고 로컬 특징 학습을 개선.
Stage-2 보정 네트워크는 로컬(변환된 포인트)과 글로벌(stage-1 특징) 정보를 결합해 신뢰도와 상자 보정을 예측한다.
Stage-2에서 중심, 크기, 방향 개정에 대한 빈 기반 및 잔차 손실과 양수에 대한 IoU 기반 할당을 사용한다.

실험 결과

연구 질문

RQ1보셀로 투사하거나 2D/3D 앵커를 사용하지 않고 원시 포인트 클라우드에서 고품질의 3D 제안을 직접 생성할 수 있는가?
RQ2풀링된 제안 특징을 사용할 때 정준 좌표 보정이 3D 상자 위치 추정과 분류를 개선하는가?
RQ3빈 기반 위치 추정 손실이 3D 중심 및 방향 추정의 수렴 및 정확도에 어떤 영향을 미치는가?

주요 결과

PointRCNN은 LiDAR 포인트 클라우드만을 입력으로 사용하여 KITTI에서 최첨단 결과를 달성한다.
바텀업 제안 생성은 소수의 제안으로 높은 재현율을 얻는다(예: 50개 제안으로 자동차에서 IoU 0.5일 때 재현율 96.01%; 300제안에서 재현율 98.21%).
KITTI 검증 세트에서 자동차에 대해 IoU 0.7에서 AP 88.88(Easy), 78.63(Moderate), 77.38(Hard)을 달성, 이전 방법을 능가.
Stage-2 정준 보정은 로컬 풀링 포인트와 Stage-1 글로벌 특징을 모두 활용해 상자 위치 추정과 신뢰도 추정의 향상을 달성한다.
KITTI 검증 세트 하드 난이도에서 자동차 카테고리의 이전 최상의 방법에 비해 8.28 AP의 향상이 보고된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.