QUICK REVIEW

[论文解读] Joint 2D-3D-Semantic Data for Indoor Scene Understanding

Iro Armeni, Sasha Sax|arXiv (Cornell University)|Feb 3, 2017

3D Surveying and Cultural Heritage参考文献 8被引用 684

一句话总结

本论文提出一个大型、丰富注释的室内数据集，提供互相注册的二维（RGB、深度、法线、360° equirectangular 图像）和三维（网格、点云）模态，以及跨13个对象类别的实例级语义注释。它使室内场景理解实现跨模态和联合学习。

ABSTRACT

We present a dataset of large-scale indoor spaces that provides a variety of mutually registered modalities from 2D, 2.5D and 3D domains, with instance-level semantic and geometric annotations. The dataset covers over 6,000m2 and contains over 70,000 RGB images, along with the corresponding depths, surface normals, semantic annotations, global XYZ images (all in forms of both regular and 360° equirectangular images) as well as camera information. It also includes registered raw and semantically annotated 3D meshes and point clouds. The dataset enables development of joint and cross-modal learning models and potentially unsupervised approaches utilizing the regularities present in large-scale indoor spaces. The dataset is available here: http://3Dsemantics.stanford.edu/

研究动机与目标

激发对一个大规模、多模态室内数据集的需求，以支持联合学习和跨模态学习。
提供一个同步的二维 RGB、深度、法线、360° equirectangular 图像、三维网格和点云的集合，在各模态之间具有一致的语义注释。
支持场景理解、深度/法线估计、对象检测、分割和不完全重建（amodal reconstruction）。
提供数据采集、处理流水线，以及基线结果，以促进跨域与无监督学习方法的发展。

提出的方法

使用 Matterport 扫描获取六个大型室内区域的 3D 纹理网格、点云和原始 RGB-D 数据。
给 3D 点云标注 13 个对象类别和 11 个场景标签，然后将标注投影到网格和 2D 图像。
通过将 3D 语义投影到图像域来生成 2D 语义标签，并提供 3D 语义网格。
生成 360° equirectangular 图像，并通过以语义内容熵为导向的采样策略采样额外的常规 RGB-D 图像。
从 3D 网格（z-buffer）渲染深度图并从网格计算表面法线；以 16 位深度图和 24 位法线图存储。
提供带有 3D 坐标编码的 OpenEXR 图像和一致的命名规范；描述数据采集、处理和采样工作流。

实验结果

研究问题

RQ1如何将互相注册的二维、2.5D 和三维模态共同用于室内场景理解？
RQ2当将三维语义注释投影到二维和2.5D模态时，能带来何种好处？
RQ3具有多样模态的大规模室内数据集是否能支持跨模态和无监督学习方法？
RQ4基于该多模态数据可以建立哪些用于三维对象检测的基线结果？
RQ5基于语义熵的采样策略如何影响标注图像的多样性和有用性？

主要发现

该数据集包含 70,496 张常规 RGB 图像和 1,413 张 equirectangular RGB 图像，附带深度、表面法线、语义注释、全局 XYZ 图像以及覆盖六个区域的相机元数据。
它提供 695,878,620 个 3D 点和 1,266,295 个 3D 网格面，具有 13 个对象类别和 11 个场景标签，支持跨模态语义传递与不可见部分分析。
3D 语义被投影到 2D 语义图像，便于在多个域中进行真值注释并支持如 3D 对象检测与场景解析等任务。
一个采样管线从 equirectangular 数据为每个扫描地点生成 72 张图像，具有相机偏航/俯仰/视场分布以及基于熵的过滤，以保留语义多样的内容。
提供了在 3D 点云上的三维对象检测基线结果，包括分层解析以及基于 SVM/CRF 的方法，展示数据集在评估跨模态和分层方法方面的实用性。
该数据集能够通过 3D 网格和 equirectangular 投影生成额外数据，并支持跨模态的监督学习和潜在的无监督学习方法。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。