QUICK REVIEW

[논문 리뷰] ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes

Angela Dai, Anne Lynn S. Chang|arXiv (Cornell University)|2017. 02. 14.

Robotics and Sensor-Based Localization참고 문헌 27인용 수 526

한 줄 요약

ScanNet은 밀집된 3D 재구성, 카메라 포즈, 인스턴스 수준의 의미 주석이 포함된 1513개의 스캔 대규모 RGB-D 데이터셋을 도입하여 3D 장면 이해 연구에 대한 감독 학습과 새로운 벤치마크를 가능하게 한다.

ABSTRACT

A key requirement for leveraging supervised deep learning methods is the availability of large, labeled datasets. Unfortunately, in the context of RGB-D scene understanding, very little data is available -- current datasets cover a small range of scene views and have limited semantic annotations. To address this issue, we introduce ScanNet, an RGB-D video dataset containing 2.5M views in 1513 scenes annotated with 3D camera poses, surface reconstructions, and semantic segmentations. To collect this data, we designed an easy-to-use and scalable RGB-D capture system that includes automated surface reconstruction and crowdsourced semantic annotation. We show that using this data helps achieve state-of-the-art performance on several 3D scene understanding tasks, including 3D object classification, semantic voxel labeling, and CAD model retrieval. The dataset is freely available at http://www.scan-net.org.

연구 동기 및 목표

군중 소싱된 밀집 RGB-D 데이터가 3D 장면 이해 연구를 확장할 수 있음을 시연한다.
비전문가가 쉽게 캡처하고 자동 재구성하며 의미 주석을 달 수 있는 워크플로우와 개방형 프레임워크를 제공한다.
ScanNet이 3D 물체 분류, 의미 있는 보셀 라벨링, CAD 모델 검색에서 최첨단 성능을 가능하게 함을 보인다.
연구 커뮤니티에 대규모 벤치마크와 오픈 소스 도구를 제공한다.

제안 방법

체커 보드 패턴으로 보정하면서 일반적인 하드웨어(아이패드의 Structure sensor)를 사용해 확장 가능한 RGB-D 캡처 시스템을 설계한다.
BundleFusion 기반의 밀집 재구성을 사용해 카메라 포즈를 얻고 TSDF 기반의 고해상도 메시를 생성한다.
재구성들을 공통 좌표계에 자동으로 정렬하고 방향성 있는 깨끗한 메시를 추출한다.
WebGL 주석 인터페이스를 통해 인스턴스 수준 의미 주석을 크라우드소싱하고 보조 검색/배치 인터페이스를 통해 3D CAD 모델 정렬을 수행한다.
세 가지 벤치마크 과제(3D 물체 분류, 의미 보셀 라벨링, CAD 모델 검색)를 만들고 학습/테스트 분할 및 평가 지표를 제공한다.
밀집 RGB-D 재구성을 위한 오픈 소스 취득 및 주석 프레임워크를 제공한다.

실험 결과

연구 질문

RQ1초보자 친화적인 RGB-D 캡처 파이프라인이 실제 실내 장면의 확장 가능하고 풍부한 주석이 달린 3D 재구성을 지원할 수 있는가?
RQ2ScanNet 데이터를 활용하면 객체 분류, 보셀 라벨링, CAD 모델 검색에 걸친 딥러닝 기반 3D 장면 이해 작업이 개선되는가?

주요 결과

ScanNet 데이터셋은 707개의 서로 다른 공간에서 수집된 1513개의 RGB-D 스캔과 2.5M RGB-D 프레임, 카메라 포즈, 표면 재구성, 질감이 입혀진 메시, 그리고 밀집한 인스턴스 수준 의미 레이블을 포함한다.
크라우드소싱 워크플로우가 표면에 인스턴스 수준 카테고리를 주석하고 재구성에 CAD 모델을 정렬하여 확장 가능한 3D 주석이 가능하게 한다(681 CAD model instances across 107 annotations on 52 scans).
Semantic voxel labeling on ScanNet reaches 73.0% voxel-class accuracy on test scenes using geometry alone (no color).
3D object classification 벤치마크는 ScanNet 데이터로 학습할 때(특히 ShapeNet과 결합 시) 합성 데이터만 사용할 때보다 전이 성능이 향상되며, 실제 ScanNet과 ShapeNet을 혼합하면 성능이 향상된다.
3D 모델 검색은 ShapeNet과 ScanNet의 공동 학습이 실물-합성 모델 검색에서 강력한 임베딩 성능을 낳는다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.