[论文解读] InteriorNet: Mega-scale Multi-sensor Photo-realistic Indoor Scenes Dataset
InteriorNet 提供一个 mega-scale 超大规模、照片级现实感的室内场景数据集,包含 RGB-D、IMU 和地面真实轨迹,使用数百万个专业家具模型和布局构建,并配备用于 SLAM 基准测试的快速渲染器和仿真器。
Datasets have gained an enormous amount of popularity in the computer vision community, from training and evaluation of Deep Learning-based methods to benchmarking Simultaneous Localization and Mapping (SLAM). Without a doubt, synthetic imagery bears a vast potential due to scalability in terms of amounts of data obtainable without tedious manual ground truth annotations or measurements. Here, we present a dataset with the aim of providing a higher degree of photo-realism, larger scale, more variability as well as serving a wider range of purposes compared to existing datasets. Our dataset leverages the availability of millions of professional interior designs and millions of production-level furniture and object assets -- all coming with fine geometric details and high-resolution texture. We render high-resolution and high frame-rate video sequences following realistic trajectories while supporting various camera types as well as providing inertial measurements. Together with the release of the dataset, we will make executable program of our interactive simulator software as well as our renderer available at https://interiornetdataset.github.io. To showcase the usability and uniqueness of our dataset, we show benchmarking results of both sparse and dense SLAM algorithms.
研究动机与目标
- 提供一个大规模、极其真实的合成室内数据集,旨在训练和基准评测 SLAM、语义理解和场景理解方法。
- 利用数百万个生产级家具模型和布局以实现多样、真实的室内环境。
- 提供端到端渲染与地面真实数据生成(RGB-D、IMU、轨迹、语义、光流)并具有时间变动性。
- 引入工具(ExaRenderer 和 ViSim)及用于可配置照明、对象重新布置和运动轨迹的管线。
- 通过 SLAM 基准评测和定性分析展示数据集的有用性。
提出的方法
- 一个大型家具模型数据库(1,042,632 个 CAD 模型)和 22,652,123 个室内布局,对应 NYU40 语义。
- 一个端到端渲染管线(ExaRenderer),能够以视频帧率进行照片级真实感 RGB-D 渲染,支持多种镜头模型和运动模糊。
- 使用物理引擎(Project Chrono)对场景动态进行仿真,以重新放置可移动对象并改变照明以模拟日常生活。
- 一种基于数据驱动的轨迹生成方法,使用在真实轨迹上训练的类似 WaveNet 的模型以产生具有碰撞避免的真实相机运动。
- 一个用户友好的仿真器(ViSim),用于生成单目/立体轨迹及相应的地面真实 IMU 和事件数据,并导出到 SLAM 基准测试。
实验结果
研究问题
- RQ1我们如何生成适用于 SLAM 基准评测的 mega-scale、 photorealistic、多样化的室内场景?
- RQ2哪些地面真实模态(RGB-D、IMU、语义、光流)是可行且对开发健壮的室内感知系统有用的?
- RQ3学习得到的轨迹风格是否能产生现实的相机运动,从而改善 SLAM 的评估与训练?
- RQ4场景变化(对象重新布置和照明变化)如何影响在合成但真实的数据上的 SLAM 跟踪和密集重建性能?
主要发现
- 该数据集包含约 2000 万张照片级真实感图像及在约 170 万个布局上的地面真相,从而支持大规模的训练与基准评估。
- 在 interiors 中进行的 SLAM 评估(ORBSLAM2.0 和 ElasticFusion),在照明变化和对象重新布置的情境下显示出非平凡的轨迹误差,序列的平均 ATE 约为 0.0345 m,难度变化。
- 使用路径追踪的快速 GPU 加速渲染器(ExaRenderer)在大型 GPU 集群上每帧渲染时间低于 2 ms,且具备地面真相的逐像素标签、深度、实例分割和光流。
- ViSim 仿真器提供单目/立体轨迹生成、地面真实 IMU 及事件数据导出,便于灵活的数据集创建与可重复性。
- 有趣的定性结果显示照明变化和场景重新布置如何影响 SLAM 跟踪与密集重建性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。