QUICK REVIEW

[论文解读] ImpliCity: City Modeling from Satellite Images with Deep Implicit Occupancy Fields

Corinne Stucker, B. Ke|arXiv (Cornell University)|Jan 24, 2022

Remote Sensing and LiDAR Applications参考文献 40被引用 13

一句话总结

IMPLICITY 提出了一种基于卫星影像的深度隐式神经场方法，用于城市三维重建，结合摄影测量点云与立体正射影像，将场景几何建模为连续占据场。其在建筑高度误差上达到 0.7 米的中位数，显著优于传统立体匹配流程及学习型优化方法，在重建屋檐、清晰建筑轮廓等精细几何细节方面表现更优。

ABSTRACT

High-resolution optical satellite sensors, combined with dense stereo algorithms, have made it possible to reconstruct 3D city models from space. However, these models are, in practice, rather noisy and tend to miss small geometric features that are clearly visible in the images. We argue that one reason for the limited quality may be a too early, heuristic reduction of the triangulated 3D point cloud to an explicit height field or surface mesh. To make full use of the point cloud and the underlying images, we introduce ImpliCity, a neural representation of the 3D scene as an implicit, continuous occupancy field, driven by learned embeddings of the point cloud and a stereo pair of ortho-photos. We show that this representation enables the extraction of high-quality DSMs: with image resolution 0.5$\,$m, ImpliCity reaches a median height error of $\approx\,$0.7$\,$m and outperforms competing methods, especially w.r.t. building reconstruction, featuring intricate roof details, smooth surfaces, and straight, regular outlines.

研究动机与目标

解决传统立体匹配生成的数字地表模型（DSM）存在的问题：尽管输入分辨率高，但噪声大且常遗漏小型几何特征。
探究隐式神经表示是否在大规模城市场景中，相较于显式 2.5D 或网格表示，能更好地保留细粒度三维几何结构。
通过将 3D 点云几何与多视角图像信息联合编码至共享潜在空间，提升重建质量。
仅使用卫星影像与摄影测量点云，实现具有平滑表面、直线边缘与复杂屋顶细节的高保真数字地表模型（DSM）。

提出的方法

该方法采用基于坐标的隐式神经网络，将 3D 场景几何表示为连续占据场 fθ(x)，其中 x 为 3D 坐标，fθ(x) 预测占据概率。
通过形状编码器处理 x 周围的局部点云邻域，编码局部 3D 点云几何，生成形状码 ψ。
利用卷积图像编码器从一张或两张正射校正后的卫星影像中生成图像引导的潜在码 ξ，使图像模式与 3D 几何对齐。
通过多尺度解码器网络融合形状码 ψ 与图像码 ξ，实现与图像不连续性精确对齐的最终占据预测。
模型通过端到端训练，使用预测占据与真实值之间的二元交叉熵损失进行监督，参考 DSM 提供监督信号。
推理阶段通过在网格上查询 3D 坐标，生成无需重采样或网格化的高分辨率连续 DSM。

实验结果

研究问题

RQ1深度隐式神经场表示是否能在噪声较大的卫星影像生成的点云上，优于显式 2.5D DSM，在重建精细几何细节方面表现更优？
RQ2在城市环境中，引入图像信息（单目或双目）在多大程度上能提升隐式 3D 场景重建的精度与几何保真度？
RQ3当在低至中等分辨率卫星数据上进行训练时，隐式表示在多大程度上能保留如屋檐等小尺度特征以及笔直的建筑边缘？
RQ4与联合潜在表示相比，分别编码点云几何与图像特征在重建质量与泛化能力方面表现如何？
RQ5隐式表示在城市尺度场景（数 km²）中是否能有效扩展，同时保持高分辨率几何细节？

主要发现

IMPLICITY 在建筑重建中实现 0.7 米的中位数绝对误差（MedAE），显著优于传统立体匹配流程与现有学习型优化方法。
与标准立体匹配生成的 DSM 相比，该方法将整体平均绝对误差（MAE）降低超过 60%，尤其在地形与建筑几何重建方面提升显著。
IMPLICITY-mono（使用单张正射影像生成潜在码）将 MAE 降低 0.3 米（降至 ≈1.6 米），MedAE 降低 0.2 米（降至 0.7 米），在建筑轮廓清晰度与屋顶细节恢复方面有显著改善。
IMPLICITY-stereo（使用立体影像对）进一步提升了视觉质量，能够恢复如屋檐等精细屋顶结构，而其他方法则常遗漏这些细节。
在所有测试基线中，IMPLICITY-0（无图像引导）达到最低的 MAE 与 MedAE；IMPLICITY-mono 与 IMPLICITY-stereo 在整体精度上较其对应方法 RESDEPTH 与 PIFu 提升 16–25%。
尽管推理成本较高（约每 km² 9 分钟），IMPLICITY-stereo 是唯一能一致恢复如屋檐等复杂小尺度屋顶特征的方法，展现出卓越的视觉保真度。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。