[论文解读] Dense labeling of large remote sensing imagery with convolutional neural networks: a simple and faster alternative to stitching output label maps.
本文提出了一种简单且更快的替代方法,用于在遥感语义分割中拼接标签图,通过在推理过程中增大CNN输入尺寸,减少计算开销和边界不连续性。该方法显著提升了推理速度,并带来了适度的准确率提升,在INRIA建筑标注竞赛中取得优胜。
In this work we consider the application of convolutional neural networks (CNNs) for pixel-wise labeling (a.k.a., semantic segmentation) of remote sensing imagery (e.g., aerial color or hyperspectral imagery). Remote sensing imagery is usually stored in the form of very large images, referred to as tiles, which are too large to be segmented directly using most CNNs and their associated hardware. As a result, during label inference, smaller sub-images, called patches, are processed individually and then stitched (concatenated) back together to create a tile-sized label map. This approach suffers from computational ineffiency and can result in discontinuities at output boundaries. We propose a simple alternative approach in which the input size of the CNN is dramatically increased only during label inference. This does not avoid stitching altogether, but substantially mitigates its limitations. We evaluate the performance of the proposed approach against a vonventional stitching approach using two popular segmentation CNN models and two large-scale remote sensing imagery datasets. The results suggest that the proposed approach substantially reduces label inference time, while also yielding modest overall label accuracy increases. This approach contributed to our wining entry (overall performance) in the INRIA building labeling competition.
研究动机与目标
- 解决在大尺寸遥感图像语义分割中,因拼接小块预测而引入的计算效率低下和边界伪影问题。
- 减少对非常大的卫星或航空影像图块进行密集标注时的推理时间。
- 通过减少推理过程中对拼接小块的依赖,提升标签图的连续性。
- 为传统基于小块的推理提供一种实用且硬件友好的替代方案,无需重新训练模型。
- 在真实遥感数据集上展示性能提升,以验证该方法的有效性。
提出的方法
- 在推理过程中增大预训练CNN的输入尺寸,以直接处理更大的图像区域,避免小块图像的处理。
- 通过扩展感受野,将同一训练好的CNN模型应用于更大的输入区域,无需重新训练或修改网络结构。
- 通过更少但更大的推理前向传播次数处理整个图块,相比基于小块的方法减少了前向传播次数。
- 保持标准训练中使用的模型权重和架构,仅将推理输入尺寸调整为匹配图块尺寸。
- 通过更大的感受野和空间连续性,避免显式拼接小块,直接生成连续的标签图。
- 仅对现有CNN进行最小修改,重点在于推理时调整输入尺寸。
实验结果
研究问题
- RQ1在推理过程中增大CNN输入尺寸,是否能减少在大尺寸遥感图像分割中对拼接小块的依赖?
- RQ2与传统的基于小块的方法相比,该方法是否能实现更快的推理速度?
- RQ3该方法能否改善标签图的连续性并减少边界伪影?
- RQ4更大的输入尺寸是否能带来可测量的分割准确率提升?
- RQ5该方法是否可在无需架构修改的情况下有效应用于多种遥感数据集?
主要发现
- 与传统的拼接小块方法相比,所提出的方法显著减少了标签推理时间。
- 在两个基准数据集上,该方法均实现了适度但稳定的总体准确率提升。
- 由于感受野更大,拼接标签图中常见的边界不连续性显著减少。
- 该方法在INRIA建筑标注竞赛中取得了最高整体性能,证明了其在真实场景中的有效性。
- 该方法无需模型重新训练或架构修改,可轻松部署于现有模型。
- 性能提升归因于在推理过程中通过更大的输入尺寸实现了更好的空间上下文建模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。