QUICK REVIEW

[논문 리뷰] 3D-SIC: 3D Semantic Instance Completion for RGB-D Scans

Ji Hou, Angela Dai|arXiv (Cornell University)|2019. 09. 25.

3D Shape Modeling and Analysis참고 문헌 34인용 수 6

한 줄 요약

이 논문은 RGB-D 스캔에서 3D 의미적 인스턴스 완성에 대한 새로운 엔드 투 엔드 딥 러닝 프레임워크인 3D-SIC을 제안한다. 이는 색상과 기하학적 특징 학습을 통합하여 객체 인스턴스를 동시에 탐지하고, 그들의 완전한 3D 기하 구조를 예측한다. 이 방법은 스캔넷에서 이전 방법들보다 15 mAP@0.5 이상, SUNCG에서 18 mAP@0.5 이상 뛰어난 최신 기술 수준의 성능을 달성한다.

ABSTRACT

This paper introduces the task of semantic instance completion: from an incomplete RGB-D scan of a scene, we aim to detect the individual object instances comprising the scene and infer their complete object geometry. This enables a semantically meaningful decomposition of a scanned scene into individual, complete 3D objects, including hidden and unobserved object parts. This will open up new possibilities for interactions with object in a scene, for instance for virtual or robotic agents. To address this task, we propose 3D-SIC, a new data-driven approach that jointly detects object instances and predicts their completed geometry. The core idea of 3D-SIC is a novel end-to-end 3D neural network architecture that leverages joint color and geometry feature learning. The fully-convolutional nature of our 3D network enables efficient inference of semantic instance completion for 3D scans at scale of large indoor environments in a single forward pass. In a series evaluation, we evaluate on both real and synthetic scan benchmark data, where we outperform state-of-the-art approaches by over 15 in mAP@0.5 on ScanNet, and over 18 in mAP@0.5 on SUNCG.

연구 동기 및 목표

불완전한 RGB-D 스캔에서 개별 객체 인스턴스의 완전한 3D 기하 구조를 복원하는 문제에 대응하기 위해.
가림되거나 관측되지 않은 부분을 포함하여, 의미적으로 유의미한 분해를 통해 완전하고 식별 가능한 3D 객체로 장면를 분할하기 위해.
완전히 컨volutional인 3D 신경망을 사용하여 대규모 실내 환경에서 확장 가능하고 효율적인 추론 방법을 개발하기 위해.
단일 순방향 전파에서 객체 인스턴스를 동시에 탐지하고, 그들의 완전한 3D 형태를 예측하기 위해.
실제 및 합성 기준 데이터셋에서 기존 최신 기술 수준의 방법들을 초월하여 의미적 인스턴스 완성 성능를 향상시키기 위해.

제안 방법

3D-SIC는 원시 RGB-D 스캔을 엔드 투 엔드로 처리하는 완전히 컨volutional인 3D 신경망 아키텍처를 사용한다.
모델은 입력 스캔의 색상 및 기하학적 정보에서 공동 특징 학습을 활용한다.
장면의 3D 바이트 격자 표현에서 다중 척도 특징을 추출하기 위해 공통 백본을 사용한다.
각 작업에 전용 헤드를 통해 동시에 인스턴스 세그멘테이션 마스크와 완전한 3D 형태를 예측한다.
이 아키텍처는 대규모 실내 장면에서 효율적인 단일 전파 추론을 가능하게 한다.
모델은 인스턴스 세그멘테이션과 형태 완성 목표를 결합한 다중 작업 손실을 사용하여 훈련된다.

실험 결과

연구 질문

RQ1통합된 딥 러닝 프레임워크는 불완전한 RGB-D 스캔에서 객체 인스턴스를 탐지하고, 그들의 완전한 3D 기하 구조를 동시에 예측할 수 있는가?
RQ2색상과 기하학적 특징 학습을 통합하는 것이 3D 의미적 인스턴스 완성 성능 향상에 얼마나 효과적인가?
RQ3제안된 3D-SIC 방법은 실제 및 합성 RGB-D 스캔 데이터셋 간에 얼마나 잘 일반화되는가?
RQ4기준 데이터셋에서 mAP@0.5 기준으로 3D-SIC는 최신 기술 수준의 방법들과 비교해 어떻게 성능을 내는가?
RQ5모델은 실시간 추론 능력을 갖추고 대규모 실내 환경에 효율적으로 확장될 수 있는가?

주요 결과

3D-SIC는 스캔넷 기준에서 최신 기술 수준의 방법들보다 mAP@0.5 점수가 15점 이상 높게 달성한다.
SUNCG 합성 데이터셋에서 3D-SIC는 이전 방법들보다 mAP@0.5 점수를 18점 이상 향상시켰다.
완전히 컨volutional 설계 덕분에 대규모 실내 장면에서 효율적인 단일 전파 추론이 가능하다.
색상과 기하학적 특징 학습의 통합은 모델이 완전한 객체 형태를 예측하는 능력을 크게 향상시킨다.
모델은 실제 세계(스캔넷)와 합성(SUNCG) RGB-D 스캔 데이터 간에 잘 일반화된다.
성능 향상은 3D 인스턴스 수준 복원에서 엔드 투 엔드 공동 탐지 및 완성의 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.