QUICK REVIEW

[论文解读] The Replica Dataset: A Digital Replica of Indoor Spaces

Julian Straub, Thomas J. Whelan|arXiv (Cornell University)|Jun 13, 2019

Robotics and Sensor-Based Localization参考文献 27被引用 382

一句话总结

Replica 提供 18 个高度真实感的室内场景三维重建，具备 HDR 纹理、语义/实例注释与反射体，面向 ML 与具身 AI 研究设计；它与 Habitat 兼容，并附带一个最小化的 SDK。

ABSTRACT

We introduce Replica, a dataset of 18 highly photo-realistic 3D indoor scene reconstructions at room and building scale. Each scene consists of a dense mesh, high-resolution high-dynamic-range (HDR) textures, per-primitive semantic class and instance information, and planar mirror and glass reflectors. The goal of Replica is to enable machine learning (ML) research that relies on visually, geometrically, and semantically realistic generative models of the world - for instance, egocentric computer vision, semantic segmentation in 2D and 3D, geometric inference, and the development of embodied agents (virtual robots) performing navigation, instruction following, and question answering. Due to the high level of realism of the renderings from Replica, there is hope that ML systems trained on Replica may transfer directly to real world image and video data. Together with the data, we are releasing a minimal C++ SDK as a starting point for working with the Replica dataset. In addition, Replica is `Habitat-compatible', i.e. can be natively used with AI Habitat for training and testing embodied agents.

研究动机与目标

创建高保真、照片级真实感的室内三维数据集，具备丰富的几何、纹理和语义。
包含每个原语的语义和实例注释以及反射表面（玻璃/镜子）。
通过真实感渲染和现实世界迁移潜力，推动具身 AI、导航和感知领域的机器学习研究。
提供工具链（SDK）和 Habitat 兼容性，以促进 ML 工作流与集成。

提出的方法

使用定制的 RGB-D 设备和红外投影仪来捕捉室内场景，以实现基于 SLAM 的 6-DoF 位姿。
将深度融合为 TSDF，使用 Marching Cubes 提取网格，并以 HDR PTex 类的纹理进行贴图。
手动修复孔洞和光平性反射面，以提升网格质量与渲染真实感。
执行两阶段语义注释：对渲染视图进行基于 2D 图像的标注，随后融合成 3D 分割森林。
对可匿名化区域进行标注，并提供一个分层分割结构，支持类别和实例标注。
发布一个最小化的 C++ SDK，并以 Habitat 兼容格式公开数据，便于 ML 集成。

实验结果

研究问题

RQ1具备 HDR 纹理与反射体的高度真实感室内重建，能否缩小 ML 模型的仿真到现实的领域差距？
RQ2平面镜面与玻璃反射面的加入如何影响渲染的真实感与语义准确性？
RQ3语义和实例注释的质量与结构如何，与 3D/2D 任务及具身 AI 基准如何协同利用？
RQ4就真实感与注释细节而言，Replica 与现有基于重建的数据集（如 Matterport3D、ScanNet）相比如何？
RQ5如何将 Replica 与 Habitat 一起用于训练和测试具身代理的导航、指令执行和问答任务？

主要发现

Replica 包含 18 个场景，具备密集几何、HDR 纹理、语义类别/实例注释，以及反射体（玻璃/镜子）。
HDR 纹理带来极高的动态范围（约 85,000:1，>16 阶），相较于以往数据集。
数据集引入可渲染的反射体，以及在对象边界处的高水平语义精度，能够实现准确的实例和类别分割。
Replica 在颜色/几何/语义分辨率方面相较于某些较早的基于重建的数据集（如 MP3D、ScanNet）表现更高。
提供了最小化的 C++ SDK 和 Habitat 兼容性，以便渲染、实验和 ML 工作流。
六个 FRL 公寓场景，具有不同配置，以捕捉同一空间的时变布置。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。