Skip to main content
QUICK REVIEW

[논문 리뷰] InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset

Wenbin Li, Sajad Saeedi|arXiv (Cornell University)|2018. 09. 03.
Robotics and Sensor-Based Localization참고 문헌 23인용 수 85
한 줄 요약

InteriorNet은 20M장의 포토리얼리스틱 이미지, 1M개의 가구 모델, 22M개의 레이아웃, 그리고 SLAM과 장면 이해를 위한 RGB-D-IMU 지상 진실과 렌더링 및 궤적 생성 도구를 제공하는 메가스케일 실내 합성 데이터셋이다.

ABSTRACT

Datasets have gained an enormous amount of popularity in the computer vision community, from training and evaluation of Deep Learning-based methods to benchmarking Simultaneous Localization and Mapping (SLAM). Without a doubt, synthetic imagery bears a vast potential due to scalability in terms of amounts of data obtainable without tedious manual ground truth annotations or measurements. Here, we present a dataset with the aim of providing a higher degree of photo-realism, larger scale, more variability as well as serving a wider range of purposes compared to existing datasets. Our dataset leverages the availability of millions of professional interior designs and millions of production-level furniture and object assets -- all coming with fine geometric details and high-resolution texture. We render high-resolution and high frame-rate video sequences following realistic trajectories while supporting various camera types as well as providing inertial measurements. Together with the release of the dataset, we will make executable program of our interactive simulator software as well as our renderer available at https://interiornetdataset.github.io. To showcase the usability and uniqueness of our dataset, we show benchmarking results of both sparse and dense SLAM algorithms.

연구 동기 및 목표

  • 로봇공학 및 컴퓨터 비전에서 SLAM, 의미 이해, 매핑을 학습하고 평가하기 위해 고충실도이며 확장 가능한 실내 씬 합성 데이터셋을 제공한다.
  • 현실 세계의 인테리어 디자인 및 객체 자산을 활용하여 동적 씬 전반의 포토리얼리즘, 다양성 및 지상 진실의 풍요로움을 달성한다.
  • 비디오 프레임 속도로 RGB-D, IMU, 및 지상 진실 궤적을 생성하는 엔드-투-엔드 도구(렌더러와 시뮬레이터)를 제공한다.
  • 다양한 조명, 재배치 및 궤적 스타일에서의 SLAM 벤치마크를 통해 데이터셋의 유용성을 입증한다.

제안 방법

  • CPU/GPU 지원 경로 추적 기반 렌더링에 빠르게 작동하는 Embree 기반의 엔드-투-엔드 포토-리얼리스틱 렌더링 파이프라인(ExaRenderer)
  • 현실 세계 치수와 풍부한 의미 라벨링을 가진 대규모 가구 모델 데이터베이스(≈100만 CAD 모델); 전문 디자이너가 만든 22M개의 인테리어 레이아웃
  • 물리 엔진을 이용한 시뮬레이션 씬 다이나믹스: 이동 가능한 객체를 재배치하고 시간에 따라 프로그래머블한 조명 변화를 적용
  • WaveNet 기반 모델을 통한 학습된 궤적 스타일링으로 사실적인 카메라 지터를 생성하되 충돌은 피함
  • ViSim 인터랙티브 시뮬레이터를 통해 임의의 레이아웃에 대해 모노큘러/스테레오 궤적 및 IMU/이벤트 지상 진실을 생성
  • 지상 진실 생성 포함: 픽셀당 NYU40 라벨, 3D 경계 상자, 깊이, 인스턴스 분할, 광학 흐름

실험 결과

연구 질문

  • RQ1메가스케일의 포토리얼리스틱 합성 데이터가 SLAM 및 장면 이해 벤치마킹에 어떤 영향을 주는가?
  • RQ2움직이는 객체와 가변 조명이 있는 동적 실내 씬이 정적 합성 데이터에 비해 SLAM 방법의 견고성을 향상시키는가?
  • RQ3학습된(WaveNet 스타일의) 카메라 궤적이 전통적인 임의 보행에 비해 평가에 의미 있는 사실감을 제공하는가?
  • RQ4대규모 실내 데이터셋에서 렌더링 속도, 이미지 해상도 및 지상 진실의 풍부함 사이의 트레이드오프는 무엇인가?

주요 결과

길이 (m)(v, ω, 타입)ATE (m)설명
21.93(1,1,1)0.0428샘플 모델
22.19(1,1,1)0.0352다른 조명이 있는
21.84(1,1,1)0.0515객체가 배치된 상태에서
13.88(9,9,1)0.170116 % 추적됨
20.83(5,6,1)0.045439 % 추적됨
17.46(1,5,1)0.0172타입-1
22.67(1,1,2)0.0193타입-2
4.79(1,1,3)0.3840타입-3, 11 % 추적됨
  • 데이터셋은 약 2천만 장의 이미지와 1.7백만 개의 레이아웃에 대한 지상 진실 데이터를 포함하고 있어 대규모 훈련 및 평가가 가능하다.
  • SLAM 벤치마크(ORBSLAM2.0, ElasticFusion)는 궤적 및 조명/씬 변화 시나리오에 따라 성능 차이가 나타나며, 데이터셋이 견고성 테스트에 유용함을 시사한다.
  • 샘플 시퀀스의 평균 절대 궤적 오차(ATE)는 0.0345 m, 표준 편차는 0.02 m로, 씬과 모델 간의 변동성을 보여준다.
  • ExaRenderer는 GPU 클러스터에서 이미지당 렌더링 시간이 2 ms에 달하는 고충실도 경로 추적 렌더링(720p-1080p 수준)을 실현하며 RGB-D, IMU, 이벤트 카메라 출력을 지원한다.
  • ViSim은 모노큘러/스테레오 궤적과 지상 진실 데이터를 생성하는 접근 가능한 인터페이스를 제공하여 데이터셋 생성과 실험을 촉진한다.
  • 실제 제작 품질의 가구 모델, 대규모 레이아웃, 동적 조명/배치를 결합하면 높은 포토리얼리즘의 시퀀스가 생성되어 견고한 SLAM 벤치마킹에 적합하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.