Skip to main content
QUICK REVIEW

[论文解读] Multi-Task Learning for Segmentation of Building Footprints with Deep Neural Networks

Benjamin Bischke, Patrick Helber|arXiv (Cornell University)|Sep 18, 2017
Remote-Sensing Image Classification被引用 40
一句话总结

本文提出一种基于距离变换和不确定性加权学习的级联多任务损失,以提升高分辨率卫星影像中建筑物轮廓的语义分割性能。通过将边界感知监督整合到基于VGG16的编码器-解码器网络中,该方法在无需后处理的情况下,相较于最先进方法实现了8.3%的IoU提升,显著减少了‘块状’预测结果,同时提高了边界精度。

ABSTRACT

The increased availability of high resolution satellite imagery allows to sense very detailed structures on the surface of our planet. Access to such information opens up new directions in the analysis of remote sensing imagery. However, at the same time this raises a set of new challenges for existing pixel-based prediction methods, such as semantic segmentation approaches. While deep neural networks have achieved significant advances in the semantic segmentation of high resolution images in the past, most of the existing approaches tend to produce predictions with poor boundaries. In this paper, we address the problem of preserving semantic segmentation boundaries in high resolution satellite imagery by introducing a new cascaded multi-task loss. We evaluate our approach on Inria Aerial Image Labeling Dataset which contains large-scale and high resolution images. Our results show that we are able to outperform state-of-the-art methods by 8.3\\% without any additional post-processing step.

研究动机与目标

  • 解决高分辨率卫星影像语义分割中边界不精确、‘块状’的问题。
  • 通过将几何边界信息融入深度神经网络,提升建筑物轮廓分割的准确性。
  • 通过在训练过程中增强边界保真度,减少对后处理的依赖。
  • 评估不确定性加权多任务学习在遥感分割中的有效性。
  • 证明更深的编码器与结构化多任务损失优于先前的最先进方法。

提出的方法

  • 使用基于VGG16的编码器与SegNet风格的解码器,以提取用于建筑物分割的层次化特征。
  • 提出一种级联多任务损失,结合语义分割与距离边界预测,利用截断和量化后的距离掩码。
  • 通过距离变换生成边界接近度的真值标签,截断半径R=20,划分为K=10个区间。
  • 采用不确定性加权多任务学习策略,通过可学习权重动态平衡语义分割与边界预测损失。
  • 使用带有权重衰减和动量的SGD进行网络训练,联合优化两个任务。
  • 对距离预测结果进行阈值处理(高于5)以生成最终的二值分割掩码。

实验结果

研究问题

  • RQ1通过距离变换引入边界信息,能否提升高分辨率卫星影像中语义分割的准确性?
  • RQ2与等权重或单任务训练相比,不确定性加权多任务学习是否能带来更好的泛化能力与边界保持效果?
  • RQ3编码器架构的选择(如VGG16与浅层网络)如何影响建筑物轮廓分割任务的性能?
  • RQ4多任务损失能否在提升IoU与边界锐度的同时,减少对后处理的依赖?
  • RQ5当与边界感知监督结合时,不同解码器架构(如FCN与SegNet)对分割性能的影响有多大?

主要发现

  • 所提方法在Inria Aerial Image Labeling Dataset验证集上达到70.14%的平均IoU,较之前最先进方法提升8.3%。
  • 使用VGG16作为编码器相比先前工作中采用的浅层网络,性能显著提升,较FCN提升3.9%,较使用浅层编码器的SegNet提升5.0%。
  • 与仅使用交叉熵损失训练的基线SegNet相比,不确定性加权多任务损失使IoU提升2.4%,证明了动态损失平衡的优势。
  • 与标准的FCN和SegNet基线相比,该方法减少了‘块状’预测,生成了更清晰、更精确的边界,定性比较结果已验证。
  • 即使不改变网络架构,通过单一损失函数引入距离预测,也能提升分割性能,凸显边界监督的价值。
  • 结果表明,解码器架构起着关键作用,基于SegNet的解码器相比更简单的FCN风格解码器,IoU提升超过5%。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。