[论文解读] Automatic Pixelwise Object Labeling for Aerial Imagery Using Stacked U-Nets
本文提出一种堆叠U-Net架构,用于航空影像的自动像素级语义分割,通过将多个U-Net模型端到端堆叠,迭代优化预测结果。该方法在Inria和Massachusetts Buildings数据集上均实现了最先进性能,同时通过下采样实现显著的推理加速,且精度损失极小。
Automation of objects labeling in aerial imagery is a computer vision task with numerous practical applications. Fields like energy exploration require an automated method to process a continuous stream of imagery on a daily basis. In this paper we propose a pipeline to tackle this problem using a stack of convolutional neural networks (U-Net architecture) arranged end-to-end. Each network works as post-processor to the previous one. Our model outperforms current state-of-the-art on two different datasets: Inria Aerial Image Labeling dataset and Massachusetts Buildings dataset each with different characteristics such as spatial resolution, object shapes and scales. Moreover, we experimentally validate computation time savings by processing sub-sampled images and later upsampling pixelwise labeling. These savings come at a negligible degradation in segmentation quality. Though the conducted experiments in this paper cover only aerial imagery, the technique presented is general and can handle other types of images.
研究动机与目标
- 解决能源和采矿等行业中,对航空影像进行人工像素级标注所耗费的高昂成本和时间。
- 开发一种基于深度学习的自动化方法,实现高分辨率航空影像中建筑物的精确语义分割。
- 通过降低输入分辨率,探索计算效率与分割精度之间的权衡。
- 通过级联U-Net架构逐步优化预测结果,提升分割质量。
- 评估条件随机场(CRFs)等后处理技术的有效性,并判断其在建筑物分割任务中的必要性。
提出的方法
- 采用两层U-Net架构堆叠,第一层U-Net的输出作为第二层的输入,实现分割掩码的逐步优化。
- 训练过程中应用随机旋转和翻转等数据增强技术,以提升模型的泛化能力和鲁棒性。
- 使用带Sigmoid激活函数的交叉熵损失函数,端到端训练模型,实现建筑物的二值语义分割。
- 将图像分辨率降低至原始分辨率的1/2和1/4(0.3 m),以评估计算效率,预测结果通过线性插值上采样用于评估。
- 测试条件随机场(CRFs)作为后处理步骤,以优化边缘细节,但由于与所需输出格式不匹配,未纳入最终流程。
- 在5000×5000像素的图像块上执行推理,结果聚合并经阈值处理后生成最终的分割掩码。
实验结果
研究问题
- RQ1堆叠U-Net架构是否能在多样化的航空影像数据集上超越单U-Net及当前最先进模型?
- RQ2降低输入图像分辨率对分割精度和推理速度有何影响?
- RQ3对于需要完整多边形掩码的建筑物分割任务,CRFs后处理是否具有实际益处?
- RQ4能否有效利用下采样图像以显著减少计算时间,同时保持精度几乎不变?
- RQ5该模型在空间分辨率和目标特征差异较大的不同数据集之间,其泛化能力如何?
主要发现
- 在Inria航空影像标注数据集上,堆叠U-Net模型的平均交并比(IoU)达到83.7%,超越现有最先进方法。
- 在Massachusetts Buildings数据集上,模型IoU达到85.2%,同样优于现有方法。
- 将输入图像下采样至原始分辨率的1/4后,每张图像块的推理时间从约160秒降至约17秒,IoU仅下降0.52%。
- 数据增强将单U-Net的IoU从73.68%提升至74.38%,证明其对模型鲁棒性具有重要意义。
- CRF后处理使验证集上的IoU下降至72.58%,因此被排除,因其引入了不必要的精细边缘,不符合建筑物多边形检测需求。
- 通过处理下采样图像,模型实现4.5倍的推理速度提升,且对分割质量影响可忽略,适用于实时或大规模部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。