QUICK REVIEW

[논문 리뷰] Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds

Bo Yang, Jianan Wang|arXiv (Cornell University)|2019. 06. 04.

3D Shape Modeling and Analysis참고 문헌 59인용 수 208

한 줄 요약

3D-BoNet은 단일 단계의 앵커 프리 프레임워크에서 포인트 클라우드의 모든 인스턴스에 대해 3D 바운딩 박스와 각 포인트 마스크를 직접 회귀하며, ScanNet 및 S3DIS에서 높은 효율로 최첨단 결과를 달성합니다.

ABSTRACT

We propose a novel, conceptually simple and general framework for instance segmentation on 3D point clouds. Our method, called 3D-BoNet, follows the simple design philosophy of per-point multilayer perceptrons (MLPs). The framework directly regresses 3D bounding boxes for all instances in a point cloud, while simultaneously predicting a point-level mask for each instance. It consists of a backbone network followed by two parallel network branches for 1) bounding box regression and 2) point mask prediction. 3D-BoNet is single-stage, anchor-free and end-to-end trainable. Moreover, it is remarkably computationally efficient as, unlike existing approaches, it does not require any post-processing steps such as non-maximum suppression, feature sampling, clustering or voting. Extensive experiments show that our approach surpasses existing work on both ScanNet and S3DIS datasets while being approximately 10x more computationally efficient. Comprehensive ablation studies demonstrate the effectiveness of our design.

연구 동기 및 목표

직관적이고 무거운 후처리나 밀집한 제안 없이 원시 포인트 클라우드에서 직접 효율적인 3D 인스턴스 세분화를 목표로 한다.
가변 수의 인스턴스와 정렬되지 않은 출력들을 처리할 수 있는 바운딩 박스 예측 모듈을 개발한다.
统一된 프레임워크에서 객체 경계와 포인트별 마스크 예측을 결합하여 정확한 인스턴스 세분화를 가능하게 한다.

제안 방법

백본 네트워크가 입력 포인트 클라우드에서 포인트 단위의 지역 특징과 전역 장면 특징을 추출한다.
바운딩 박스 예측 분기는 전역 특징으로부터 고정된 집합 H의 3D 바운딩 박스와 대응하는 신뢰도 점수를 회귀한다.
바운딩 박스 연관 계층은 감독을 위해 ground-truth 상자와 예측 간의 Hungarian 할당을 해결한다.
다중 기준 손실은 유클리드 거리, 포인트에서의 소 IoU(sIoU), 그리고 교차 엔트로피 점수를 결합하여 상자 예측을 감독한다.
포인트 마스크 예측 분기는 상자, 지역 특징 및 전역 특징을 융합하여 인스턴스별 포인트 이진 마스크를 예측하고, 클래스 불균형에 대해 Focal Loss를 사용한다.
공유된 백본(PointNet++ )과 표준 교차 엔트로피로 학습되는 시맨틱 분기를 포함한 엔드-투-엔드 학습.

실험 결과

연구 질문

RQ1단일 단계의 앵커 프리 프레임워크가 포인트 클라우드에서 직접 인스턴스의 정확한 3D 바운딩 박스를 학습하고, 후처리 없이 가능할까?
RQ2기하학적 바운딩 박스 감독과 포인트별 커버리지(sIoU) 및 상자 신뢰도의 결합이 예측과 실제 인스턴스 간의 바인딩을 개선할까?
RQ3간단하고 공유된 상자 인지 기반의 포인트 마스크 분기가 다양한 객체 범주에 걸쳐 인스턴스 세분화에 얼마나 잘 수행될까?
RQ4제안 기반이나 밀집 제안 방법과 비교했을 때 계산 효율성은 얼마나 향상될까?
RQ5클래스 비적합 마스크 분기를 통한 일반화 가능성이 있는가( unseen 카테고리로의 일반화 여부)?

주요 결과

3D-BoNet은 ScanNet v2에서 IoU 0.5에서의 AP에서 여러 베이스라인을 상회하면서도 계산 효율은 대략 10배 더 높습니다.
바운딩 박스 연관 및 다중 기준 손실은 가변 인스턴스 설정에서 예측 박스와 실제 박스 간의 신뢰 가능한 쌍매치를 가능하게 합니다.
포인트-마스크 분기는 RoI 풀링 없이 글로벌 및 지역 특징을 재사용하여 인스턴스 수준의 분할을 경쟁력 있게 제공합니다.
변형 연구는 박스 점수 분기와 전체 다중 기준 손실이 단일 기준 또는 박스 없음 감독 구성보다 성능을 크게 향상시킴을 보여줍니다.
S3DIS에서 3D-BoNet은 PartNet 및 ASIS 베이스라인에 비해 평균 정밀도가 높고 재현율은 유사하며, 전체 프레임워크가 최상의 성능을 제공합니다.
계산 분석에 따르면 방법은 O(N) 시간으로 작동하며 4k 포인트에서 실용적인 GPU 시간은 약 20ms로, 클러스터링이나 밀집 제안 방법보다 현저히 빠릅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.