Skip to main content
QUICK REVIEW

[论文解读] Encoded Hourglass Network for Semantic Segmentation of High Resolution Aerial Imagery.

Panfeng Li, Youzuo Lin|arXiv (Cornell University)|Oct 30, 2018
Advanced Image and Video Retrieval Techniques被引用 6
一句话总结

本文提出了一种编码的沙漏网络,通过将堆叠的编码器-解码器架构与上下文编码模块相结合,提升了高分辨率航拍图像语义分割中的多尺度特征提取和全局上下文建模能力。通过在多个解码器上应用中间监督,该方法在Potsdam测试集上实现了87.01%的像素准确率和69.78%的mIoU,优于基线模型。

ABSTRACT

Fully Convolutional Network (FCN) has been widely used in recent work for semantic segmentation of high resolution aerial imagery. However, FCN is poor at extracting multi-scale features and exploiting contextual information. In this paper, we explore stacked encoder-decoder structure which enables repeated bottom-up, top-down inference across various scales and consolidates global and local information of the image. Moreover, we utilize the Context Encoding Module to capture the global contextual semantics of scenes and selectively emphasize or de-emphasize class-dependent featuremaps. Our approach is further enhanced by intermediate supervision on the predictions of multiple decoders and has achieved 87.01% pixel accuracy and 69.78% mIoU on Potsdam test set, which surpasses various baseline models.

研究动机与目标

  • 为解决全卷积网络(FCNs)在捕捉高分辨率航拍影像中多尺度特征和上下文信息方面的局限性。
  • 通过引入一种新型的上下文编码模块,整合全局上下文语义信息,以提升语义分割性能。
  • 通过堆叠的编码器-解码器结构,实现跨尺度的重复自底向上与自顶向下的推理,以增强特征学习。
  • 通过在多个解码器预测上应用中间监督,提升模型泛化能力与特征精炼效果。

提出的方法

  • 该模型采用堆叠的编码器-解码器架构,以实现在多个尺度上重复的自底向上与自顶向下的特征传播。
  • 引入了上下文编码模块,用于捕捉全局场景语义并执行与类别相关的特征图调制。
  • 在多个解码器的预测上应用中间监督,以提升训练稳定性与特征表示能力。
  • 通过跳跃连接将编码器中的高分辨率特征与解码器的上采样特征相结合,实现精确的定位。
  • 网络采用端到端训练,使用交叉熵损失函数,并通过标准深度学习优化技术进行优化。
  • 上下文编码模块学习一个全局上下文向量,并将其广播到特征图上,以强调或抑制特定语义类别。

实验结果

研究问题

  • RQ1堆叠的编码器-解码器结构是否能提升高分辨率航拍图像分割中的多尺度特征学习与上下文建模能力?
  • RQ2上下文编码模块的引入在语义分割中对全局场景语义表征有何影响?
  • RQ3在多个解码器头上的中间监督在多大程度上提升了分割准确率与特征质量?
  • RQ4所提出的架构是否在基准航拍图像分割数据集上优于标准的FCN基线模型?

主要发现

  • 所提出的编码沙漏网络在Potsdam测试集上实现了87.01%的像素准确率,表明其在高分辨率航拍影像上具有强大的性能表现。
  • 该模型获得了69.78%的平均交并比(mIoU),在分割质量上超越了多个基线模型。
  • 上下文编码模块的集成增强了全局上下文建模能力,使类别预测更加连贯且准确。
  • 在多个解码器上应用中间监督改善了特征精炼效果,并有助于提升泛化能力与收敛性。
  • 堆叠的编码器-解码器结构实现了多尺度特征的有效融合,提升了定位精度与边界分割准确性。
  • 与标准的FCN基线模型相比,该方法表现出更优的性能,凸显了结构化多尺度与全局上下文学习的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。