Skip to main content
QUICK REVIEW

[논문 리뷰] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Anne Lynn S. Chang|arXiv (Cornell University)|2017. 02. 14.
Robotics and Sensor-Based Localization참고 문헌 27인용 수 526
한 줄 요약

ScanNet은 밀집된 3D 재구성, 카메라 포즈, 인스턴스 수준의 의미 주석이 포함된 1513개의 스캔 대규모 RGB-D 데이터셋을 도입하여 3D 장면 이해 연구에 대한 감독 학습과 새로운 벤치마크를 가능하게 한다.

ABSTRACT

A key requirement for leveraging supervised deep learning methods is the availability of large, labeled datasets. Unfortunately, in the context of RGB-D scene understanding, very little data is available -- current datasets cover a small range of scene views and have limited semantic annotations. To address this issue, we introduce ScanNet, an RGB-D video dataset containing 2.5M views in 1513 scenes annotated with 3D camera poses, surface reconstructions, and semantic segmentations. To collect this data, we designed an easy-to-use and scalable RGB-D capture system that includes automated surface reconstruction and crowdsourced semantic annotation. We show that using this data helps achieve state-of-the-art performance on several 3D scene understanding tasks, including 3D object classification, semantic voxel labeling, and CAD model retrieval. The dataset is freely available at http://www.scan-net.org.

연구 동기 및 목표

  • 군중 소싱된 밀집 RGB-D 데이터가 3D 장면 이해 연구를 확장할 수 있음을 시연한다.
  • 비전문가가 쉽게 캡처하고 자동 재구성하며 의미 주석을 달 수 있는 워크플로우와 개방형 프레임워크를 제공한다.
  • ScanNet이 3D 물체 분류, 의미 있는 보셀 라벨링, CAD 모델 검색에서 최첨단 성능을 가능하게 함을 보인다.
  • 연구 커뮤니티에 대규모 벤치마크와 오픈 소스 도구를 제공한다.

제안 방법

  • 체커 보드 패턴으로 보정하면서 일반적인 하드웨어(아이패드의 Structure sensor)를 사용해 확장 가능한 RGB-D 캡처 시스템을 설계한다.
  • BundleFusion 기반의 밀집 재구성을 사용해 카메라 포즈를 얻고 TSDF 기반의 고해상도 메시를 생성한다.
  • 재구성들을 공통 좌표계에 자동으로 정렬하고 방향성 있는 깨끗한 메시를 추출한다.
  • WebGL 주석 인터페이스를 통해 인스턴스 수준 의미 주석을 크라우드소싱하고 보조 검색/배치 인터페이스를 통해 3D CAD 모델 정렬을 수행한다.
  • 세 가지 벤치마크 과제(3D 물체 분류, 의미 보셀 라벨링, CAD 모델 검색)를 만들고 학습/테스트 분할 및 평가 지표를 제공한다.
  • 밀집 RGB-D 재구성을 위한 오픈 소스 취득 및 주석 프레임워크를 제공한다.

실험 결과

연구 질문

  • RQ1초보자 친화적인 RGB-D 캡처 파이프라인이 실제 실내 장면의 확장 가능하고 풍부한 주석이 달린 3D 재구성을 지원할 수 있는가?
  • RQ2ScanNet 데이터를 활용하면 객체 분류, 보셀 라벨링, CAD 모델 검색에 걸친 딥러닝 기반 3D 장면 이해 작업이 개선되는가?

주요 결과

  • ScanNet 데이터셋은 707개의 서로 다른 공간에서 수집된 1513개의 RGB-D 스캔과 2.5M RGB-D 프레임, 카메라 포즈, 표면 재구성, 질감이 입혀진 메시, 그리고 밀집한 인스턴스 수준 의미 레이블을 포함한다.
  • 크라우드소싱 워크플로우가 표면에 인스턴스 수준 카테고리를 주석하고 재구성에 CAD 모델을 정렬하여 확장 가능한 3D 주석이 가능하게 한다(681 CAD model instances across 107 annotations on 52 scans).
  • Semantic voxel labeling on ScanNet reaches 73.0% voxel-class accuracy on test scenes using geometry alone (no color).
  • 3D object classification 벤치마크는 ScanNet 데이터로 학습할 때(특히 ShapeNet과 결합 시) 합성 데이터만 사용할 때보다 전이 성능이 향상되며, 실제 ScanNet과 ShapeNet을 혼합하면 성능이 향상된다.
  • 3D 모델 검색은 ShapeNet과 ScanNet의 공동 학습이 실물-합성 모델 검색에서 강력한 임베딩 성능을 낳는다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.