[논문 리뷰] InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset
InteriorNet는 RGB-D, IMU 및 ground-truth 궤적이 포함된 메가 규모의 포토리얼리스틱 실내 씬 데이터셋을 구축한 것으로, 수백만 개의 전문 가구 모델과 배치를 바탕으로, SLAM 벤치마크용 빠른 렌더러 및 시뮬레이터를 제공한다.
Datasets have gained an enormous amount of popularity in the computer vision community, from training and evaluation of Deep Learning-based methods to benchmarking Simultaneous Localization and Mapping (SLAM). Without a doubt, synthetic imagery bears a vast potential due to scalability in terms of amounts of data obtainable without tedious manual ground truth annotations or measurements. Here, we present a dataset with the aim of providing a higher degree of photo-realism, larger scale, more variability as well as serving a wider range of purposes compared to existing datasets. Our dataset leverages the availability of millions of professional interior designs and millions of production-level furniture and object assets -- all coming with fine geometric details and high-resolution texture. We render high-resolution and high frame-rate video sequences following realistic trajectories while supporting various camera types as well as providing inertial measurements. Together with the release of the dataset, we will make executable program of our interactive simulator software as well as our renderer available at https://interiornetdataset.github.io. To showcase the usability and uniqueness of our dataset, we show benchmarking results of both sparse and dense SLAM algorithms.
연구 동기 및 목표
- 대규모의 매우 현실적인 합성 실내 데이터셋을 제공하여 SLAM, 의미 이해, 그리고 장면 이해 방법의 훈련 및 벤치마킹에 활용
- 수백만 개의 생산 품질 가구 모델과 배치를 활용하여 다양하고 현실적인 실내 환경을 가능하게 함
- RGB-D, IMU, 궤적, 의미, 흐름 등과 함께 시간적 변이를 가진 엔드투엔드 렌더링 및 ground-truth 생성 제공
- 구성 가능한 조명, 물체 재배치, 움직임 궤적을 위한 도구(ExaRenderer와 ViSim)와 파이프라인 도입
- 데이터셋의 유용성을 SLAM 벤치마킹과 정성적 분석을 통해 입증
제안 방법
- 대규모 가구 모델 데이터베이스(1,042,632 CAD 모델)와 NYU40 의미 체계에 매핑된 22,652,123개의 실내 배치.
- 엔드투엔드 렌더링 파이프라인(ExaRenderer)으로 비디오 프레임 속도에서 포토리얼리스틱 RGB-D 렌더링이 가능하며, 여러 렌즈 모델과 모션 블러를 지원.
- 씬의 다이나믹스를 물리 시뮬레이터(Project Chrono)를 사용해 움직일 수 있는 물체를 재배치하고 일상 생활을 모방하기 위한 조명을 변화시키는 시뮬레이션.
- 실제 궤적에 대해 학습된 WaveNet 유사 모델을 사용해 현실적인 카메라 움직임과 충돌 회피를 제공하는 데이터 기반 궤적 생성 접근법.
- 모노큘러/스테레오 궤적 및 대응하는 ground-truth IMU와 이벤트 데이터를 생성하고 SLAM 벤치마크로 내보내는 사용자 친화적 시뮬레이터(ViSim).
실험 결과
연구 질문
- RQ1mega-scale에 적합하고 포토리얼리스틱한 실내 씬을 어떻게 생성할 수 있을까? SLAM 벤치마킹을 위해?
- RQ2어떤 ground-truth 모달리티(RGB-D, IMU, 의미, 흐름)가 견고한 실내 인지 시스템의 개발에 실현 가능하고 유용한가?
- RQ3학습된 궤적 스타일이 현실적인 카메라 모션을 생성해 SLAM 평가 및 훈련을 개선할 수 있는가?
- RQ4씬 변화(물체 재배치 및 조명 변화)가 합성이지만 현실적인 데이터에서 SLAM 추적 및 밀도 재구성 성능에 어떤 영향을 주는가?
주요 결과
- 데이터셋은 약 2000만 장의 포토리얼리스틱 이미지와 약 170만 개의 배치에 대한 ground truth를 포함하고 있어 대규모 학습 및 벤치마킹이 가능하다.
- 실내에서 조명 변화와 물체 재배치가 있는 경우의 SLAM 평가(ORBSLAM2.0 및 ElasticFusion)는 비교적 단순하지 않은 궤적 오차를 보여주며, 시퀀스 간 평균 ATE는 약 0.0345 m로 다양성 있는 난이도에서 나타난다.
- 경량화된 GPU 가속 렌더러(ExaRenderer)가 경로 추적을 사용해 대형 GPU 클러스터에서 프레임당 렌더링을 2 ms 미만으로 달성하며, 픽셀당 라벨, 깊이, 인스턴스 분할, 그리고 광학 흐름에 대한 ground-truth를 제공한다.
- ViSim 시뮬레이터는 모노큘러/스테레오 궤적 생성, ground-truth IMU 및 이벤트 데이터 내보내기 기능을 제공해 데이터셋 생성의 유연성과 재현성을 강화한다.
- 조명 변화와 씬 재배치가 SLAM 추적 및 밀도 재구성 성능에 미치는 영향을 보여주는 흥미로운 정성적 결과를 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.