[论文解读] Learning deep structured active contours end-to-end
DSAC 将局部几何先验整合到一个端到端可训练框架中,通过使用 CNN 预测用于主动轮廓模型的能量项,在多个数据集上实现比最先进方法更好的建筑实例分割。
The world is covered with millions of buildings, and precisely knowing each instance's position and extents is vital to a multitude of applications. Recently, automated building footprint segmentation models have shown superior detection accuracy thanks to the usage of Convolutional Neural Networks (CNN). However, even the latest evolutions struggle to precisely delineating borders, which often leads to geometric distortions and inadvertent fusion of adjacent building instances. We propose to overcome this issue by exploiting the distinct geometric properties of buildings. To this end, we present Deep Structured Active Contours (DSAC), a novel framework that integrates priors and constraints into the segmentation process, such as continuous boundaries, smooth edges, and sharp corners. To do so, DSAC employs Active Contour Models (ACM), a family of constraint- and prior-based polygonal models. We learn ACM parameterizations per instance using a CNN, and show how to incorporate all components in a structured output model, making DSAC trainable end-to-end. We evaluate DSAC on three challenging building instance segmentation datasets, where it compares favorably against state-of-the-art. Code will be made available.
研究动机与目标
- 将基于 CNN 的特征学习与几何形状先验连接起来,以获得精确的建筑轮廓。
- 通过学习能量项,使主动轮廓模型实现端到端训练。
- 将局部、依图像相关的先验(包括膨胀项、曲率项和数据项)整合到统一框架中。
- 在多个人口数据集上评估 DSAC,并与现有方法进行比较。
提出的方法
- 将建筑表示为多边形,并通过 CNN 学习每个实例的能量函数,用于 ACM。
- 将 D(数据项)、alpha(长度惩罚)、beta(曲率惩罚)和 kappa(膨胀)作为图像相关映射进行预测。
- 将局部先验整合到 ACM 能量中,并通过结构化 SVM 损失在端到端训练循环中进行优化。
- 使用近似可微分的更新 y^{t+1} = (I + A + B)^{-1}(y^{t} - dE_ext/dy^{t}) 来推断轮廓。
- 使用基于 IoU 的任务损失 Δ 的带损失增强推理和最大边界 SSVM 目标进行训练,并通过反向传播更新 CNN 权重。
- 使用局部惩罚的 ACM,其中 D、alpha、beta、kappa 是学习得到的图像像素级映射,而不是全局常数。
实验结果
研究问题
- RQ1局部、图像相关的先验能否提升建筑实例分割的几何精度?
- RQ2将 ACM 与 CNN 结合在一个端到端可训练框架中,是否能比纯 CNN 基线得到更好的实例轮廓?
- RQ3包含膨胀项以及逐像素曲率/长度惩罚对分割质量的影响是什么?
- RQ4基于端到端 SSVM 的训练,结合带损失增强推理,如何影响能量项的学习?
主要发现
| 方法 | Vaihingen IoU | Bing huts IoU | Bing huts RMSE (m^2) |
|---|---|---|---|
| CNN Baseline | 0.78 | 0.56 | 23.9 |
| DSAC (ours) | 0.84 | 0.65 | 13.4 |
| DSAC (scalar κ , β) | 0.64 | 0.60 | 19.1 |
| DSAC (no κ) | 0.63 | 0.42 | 31.2 |
| DSAC (local α) | 0.83 | 0.65 | 13.4 |
- 在手动初始化场景下,DSAC 的 IoU 高于 CNN 基线,适用于 Vaihingen 和 Bing huts(IoU 提升如表 1所示)。
- 局部逐像素的 beta 和膨胀先验提升分割质量,而全局的 kappa 或省略 kappa 会降低性能。
- 在 TorontoCity 自动初始化中,DSAC 相较于参考方法(DWT、FCN、ResNet)在加权覆盖率和形状相似度上有所提升。
- 混合初始化(用原始 DWT 训练、用经后处理的 DWT 测试)在 TorontoCity 实验中产生最佳的 WeighCov/PolySim。
- DSAC 展示了膨胀项对轮廓收敛的重要性,以及局部先验对尖角和直边的作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。