Skip to main content
QUICK REVIEW

[论文解读] Automatic Building Extraction in Aerial Scenes Using Convolutional Networks

Jiangye Yuan|arXiv (Cornell University)|Feb 21, 2016
Automated Road and Building Extraction参考文献 20被引用 58
一句话总结

本文提出一种具有多阶段特征融合和符号距离函数输出表示的深度卷积神经网络,用于从航空影像中自动提取建筑物。该方法在大规模GIS提供的建筑物轮廓数据上进行训练,在复杂城市数据集上实现了高精度和高效率,其速度和检测质量均优于先前的方法。

ABSTRACT

Automatic building extraction from aerial and satellite imagery is highly challenging due to extremely large variations of building appearances. To attack this problem, we design a convolutional network with a final stage that integrates activations from multiple preceding stages for pixel-wise prediction, and introduce the signed distance function of building boundaries as the output representation, which has an enhanced representation power. We leverage abundant building footprint data available from geographic information systems (GIS) to compile training data. The trained network achieves superior performance on datasets that are significantly larger and more complex than those used in prior work, demonstrating that the proposed method provides a promising and scalable solution for automating this labor-intensive task.

研究动机与目标

  • 解决在建筑物外观高度多变的复杂航空影像场景中自动提取建筑物的挑战。
  • 克服传统方法依赖手工编码外观准则的局限性,这些方法在多样化的真实城市数据集上表现不佳。
  • 利用丰富的GIS标注建筑物轮廓数据,训练深度学习模型,实现可扩展且泛化能力强的建筑物分割。
  • 开发一种新型网络架构和输出表示方法,以提升遥感影像中像素级分类和边界定位的准确性。

提出的方法

  • 设计一种带有跳跃连接的卷积神经网络(ConvNet),通过整合多阶段的特征激活,提升空间和语义表征能力。
  • 引入符号距离函数(SDF)作为输出表示,增强边界表征并提高定位精度。
  • 利用GIS数据库中的地理参考建筑物轮廓数据,为航空影像创建大规模、高精度的训练样本。
  • 采用端到端反向传播训练网络,并使用针对SDF输出定制的损失函数,实现对建筑物边界的精确预测。
  • 应用上采样和多尺度融合技术,恢复池化操作中丢失的细粒度空间细节。
  • 通过优化网络架构,实现对整个高分辨率图像的高效处理,显著降低单张图像的推理时间,优于先前方法。

实验结果

研究问题

  • RQ1在GIS提供的建筑物轮廓数据上进行训练的深度学习模型,能否泛化到外观高度多变的真实复杂航空影像场景?
  • RQ2与单阶段网络相比,集成多阶段特征图是否能提升建筑物分割的像素级分类准确性?
  • RQ3符号距离函数输出表示是否能增强边界定位并减少建筑物提取中的误报?
  • RQ4在大规模数据集上,该方法与现有最先进建筑物检测系统相比,在准确性和推理速度方面表现如何?
  • RQ5该模型在不同地理区域(包括农村和非城市区域)的泛化能力如何?

主要发现

  • 所提方法在大规模复杂航空影像数据集上表现优异,检测准确性和计算效率均优于先前方法。
  • 在图像1(813栋建筑物)上,误报数从SU方法的51例减少至45例,检测数从321例提升至708例,表明召回率和精确率均显著提高。
  • 在图像2(624栋建筑物)上,误报数从47例减少至31例,检测数从258例提升至574例,表明在不同数据集上均保持一致的性能增益。
  • 系统处理一张测试图像约需1分钟,显著快于SU方法超过20分钟的处理时间。
  • 该模型在城市和郊区场景中表现出强泛化能力,但在农村或地理特征差异较大的区域性能有所下降。
  • SDF输出表示的使用实现了更精确的边界勾画,从而在复杂场景变化下仍能提升分割质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。