Skip to main content
QUICK REVIEW

[논문 리뷰] 3D-SIC: 3D Semantic Instance Completion for RGB-D Scans

Ji Hou, Angela Dai|arXiv (Cornell University)|2019. 09. 25.
3D Shape Modeling and Analysis참고 문헌 34인용 수 6
한 줄 요약

이 논문은 RGB-D 스캔에서 3D 의미적 인스턴스 완성에 대한 새로운 엔드 투 엔드 딥 러닝 프레임워크인 3D-SIC을 제안한다. 이는 색상과 기하학적 특징 학습을 통합하여 객체 인스턴스를 동시에 탐지하고, 그들의 완전한 3D 기하 구조를 예측한다. 이 방법은 스캔넷에서 이전 방법들보다 15 mAP@0.5 이상, SUNCG에서 18 mAP@0.5 이상 뛰어난 최신 기술 수준의 성능을 달성한다.

ABSTRACT

This paper introduces the task of semantic instance completion: from an incomplete RGB-D scan of a scene, we aim to detect the individual object instances comprising the scene and infer their complete object geometry. This enables a semantically meaningful decomposition of a scanned scene into individual, complete 3D objects, including hidden and unobserved object parts. This will open up new possibilities for interactions with object in a scene, for instance for virtual or robotic agents. To address this task, we propose 3D-SIC, a new data-driven approach that jointly detects object instances and predicts their completed geometry. The core idea of 3D-SIC is a novel end-to-end 3D neural network architecture that leverages joint color and geometry feature learning. The fully-convolutional nature of our 3D network enables efficient inference of semantic instance completion for 3D scans at scale of large indoor environments in a single forward pass. In a series evaluation, we evaluate on both real and synthetic scan benchmark data, where we outperform state-of-the-art approaches by over 15 in mAP@0.5 on ScanNet, and over 18 in mAP@0.5 on SUNCG.

연구 동기 및 목표

  • 불완전한 RGB-D 스캔에서 개별 객체 인스턴스의 완전한 3D 기하 구조를 복원하는 문제에 대응하기 위해.
  • 가림되거나 관측되지 않은 부분을 포함하여, 의미적으로 유의미한 분해를 통해 완전하고 식별 가능한 3D 객체로 장면를 분할하기 위해.
  • 완전히 컨volutional인 3D 신경망을 사용하여 대규모 실내 환경에서 확장 가능하고 효율적인 추론 방법을 개발하기 위해.
  • 단일 순방향 전파에서 객체 인스턴스를 동시에 탐지하고, 그들의 완전한 3D 형태를 예측하기 위해.
  • 실제 및 합성 기준 데이터셋에서 기존 최신 기술 수준의 방법들을 초월하여 의미적 인스턴스 완성 성능를 향상시키기 위해.

제안 방법

  • 3D-SIC는 원시 RGB-D 스캔을 엔드 투 엔드로 처리하는 완전히 컨volutional인 3D 신경망 아키텍처를 사용한다.
  • 모델은 입력 스캔의 색상 및 기하학적 정보에서 공동 특징 학습을 활용한다.
  • 장면의 3D 바이트 격자 표현에서 다중 척도 특징을 추출하기 위해 공통 백본을 사용한다.
  • 각 작업에 전용 헤드를 통해 동시에 인스턴스 세그멘테이션 마스크와 완전한 3D 형태를 예측한다.
  • 이 아키텍처는 대규모 실내 장면에서 효율적인 단일 전파 추론을 가능하게 한다.
  • 모델은 인스턴스 세그멘테이션과 형태 완성 목표를 결합한 다중 작업 손실을 사용하여 훈련된다.

실험 결과

연구 질문

  • RQ1통합된 딥 러닝 프레임워크는 불완전한 RGB-D 스캔에서 객체 인스턴스를 탐지하고, 그들의 완전한 3D 기하 구조를 동시에 예측할 수 있는가?
  • RQ2색상과 기하학적 특징 학습을 통합하는 것이 3D 의미적 인스턴스 완성 성능 향상에 얼마나 효과적인가?
  • RQ3제안된 3D-SIC 방법은 실제 및 합성 RGB-D 스캔 데이터셋 간에 얼마나 잘 일반화되는가?
  • RQ4기준 데이터셋에서 mAP@0.5 기준으로 3D-SIC는 최신 기술 수준의 방법들과 비교해 어떻게 성능을 내는가?
  • RQ5모델은 실시간 추론 능력을 갖추고 대규모 실내 환경에 효율적으로 확장될 수 있는가?

주요 결과

  • 3D-SIC는 스캔넷 기준에서 최신 기술 수준의 방법들보다 mAP@0.5 점수가 15점 이상 높게 달성한다.
  • SUNCG 합성 데이터셋에서 3D-SIC는 이전 방법들보다 mAP@0.5 점수를 18점 이상 향상시켰다.
  • 완전히 컨volutional 설계 덕분에 대규모 실내 장면에서 효율적인 단일 전파 추론이 가능하다.
  • 색상과 기하학적 특징 학습의 통합은 모델이 완전한 객체 형태를 예측하는 능력을 크게 향상시킨다.
  • 모델은 실제 세계(스캔넷)와 합성(SUNCG) RGB-D 스캔 데이터 간에 잘 일반화된다.
  • 성능 향상은 3D 인스턴스 수준 복원에서 엔드 투 엔드 공동 탐지 및 완성의 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.