QUICK REVIEW

[论文解读] HoliCity: A City-Scale Data Platform for Learning Holistic 3D Structures

Yichao Zhou, Jingwei Huang|arXiv (Cornell University)|Aug 7, 2020

Advanced Vision and Imaging参考文献 46被引用 24

一句话总结

HoliCity 引入了一个城市规模的 3D 数据平台，包含 6,300 幅高分辨率全景图以及精确的 CAD 模型对齐，用于学习整体 3D 结构（如平面、直线和消失点）。该平台在表面分割和法向估计任务中实现了最先进性能，且在 HoliCity 上训练的模型在真实户外场景中的泛化能力显著优于在室内或合成数据集上训练的模型。

ABSTRACT

We present HoliCity, a city-scale 3D dataset with rich structural information. Currently, this dataset has 6,300 real-world panoramas of resolution $13312 imes 6656$ that are accurately aligned with the CAD model of downtown London with an area of more than 20 km$^2$, in which the median reprojection error of the alignment of an average image is less than half a degree. This dataset aims to be an all-in-one data platform for research of learning abstracted high-level holistic 3D structures that can be derived from city CAD models, e.g., corners, lines, wireframes, planes, and cuboids, with the ultimate goal of supporting real-world applications including city-scale reconstruction, localization, mapping, and augmented reality. The accurate alignment of the 3D CAD models and panoramas also benefits low-level 3D vision tasks such as surface normal estimation, as the surface normal extracted from previous LiDAR-based datasets is often noisy. We conduct experiments to demonstrate the applications of HoliCity, such as predicting surface segmentation, normal maps, depth maps, and vanishing points, as well as test the generalizability of methods trained on HoliCity and other related datasets. HoliCity is available at https://holicity.io.

研究动机与目标

为解决当前缺乏高质量、真实世界户外数据集以用于训练整体 3D 结构识别模型的问题。
克服 3D 视觉任务中室内、合成与真实世界户外场景之间的域差距。
提供一个统一、精确且可扩展的数据平台，用于学习高层 3D 结构（如平面、线框和长方体）。
支持城市环境中表面分割、法向估计和深度预测等深度学习模型的鲁棒训练与评估。
通过提供基于精确全景图-CAD 对齐的干净、结构化真实值，减少对噪声较大的 LiDAR 数据的依赖。

提出的方法

该数据集将 6,300 幅真实世界的全景图（分辨率 13312×6656）与伦敦市中心的高保真 CAD 模型相结合，覆盖面积超过 20 km²。
全景图通过空间注册与 CAD 模型对齐，中位重投影误差小于半度，确保了精确的几何对齐。
真实值标注包括表面分割、深度图、法向图和消失点，全部基于 CAD 模型生成，并从全景图中渲染得到。
该平台通过提供低层次表征（如法向）和高层次抽象（如平面、长方体），支持多任务学习。
在 HoliCity、ScanNet 和 SYNTHIA 上对 MaskRCNN、关联嵌入（Associative Embedding）、PlaneRecover 和 UNet 等基线模型进行训练与评估，以进行对比分析。
开展跨数据集泛化实验，以评估模型在真实世界、合成数据和室内基准之间的鲁棒性。

实验结果

研究问题

RQ1在 HoliCity 上训练的模型是否在真实世界户外场景中的泛化能力优于在室内或合成数据集上训练的模型？
RQ2HoliCity 中真实值 3D 结构的质量与基于噪声较大的 LiDAR 扫描生成的真实值相比，在支持下游 3D 视觉任务方面有何差异？
RQ3现有表面分割与法向估计方法在应用于真实世界户外场景时，由于域移位问题，其失效程度如何？
RQ4像 HoliCity 这样的单一数据集能否作为多个整体 3D 结构学习任务的统一基准？
RQ5数据集域多样性对深度学习模型在城市 3D 视觉任务中泛化能力的影响如何？

主要发现

在 HoliCity 上测试时，HoliCity 训练的模型在表面分割任务中达到 42.0 的 AP50，显著优于在 ScanNet（5.0）和 SYNTHIA（36.1）上训练的模型。
在 HoliCity 上，HoliCity 训练的模型法向估计平均角度误差为 22.6°，而 ScanNet 训练的模型为 46.3°。
在 HoliCity 上，HoliCity 训练的模型在合成户外数据集 SYNTHIA 上达到 36.1 的 AP50，而 SYNTHIA 训练的模型在 HoliCity 上仅达到 1.90 的 AP50。
在 HoliCity 上训练的 MaskRCNN 模型即使在表面分割定义存在差异的情况下，仍能成功恢复 SYNTHIA 中的建筑表面，表明其具备强大的域泛化能力。
在 ScanNet（室内）或 SYNTHIA（合成）数据集上训练的方法在真实世界户外场景中泛化能力差，其在 HoliCity 上的 AP50 分数降至 5.0 以下。
结果表明，HoliCity 对于训练鲁棒的户外 3D 视觉模型至关重要，因为现有数据集无法捕捉真实城市环境的复杂性与多样性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。