Skip to main content
QUICK REVIEW

[论文解读] Semantic Edge Detection with Diverse Deep Supervision

Yun Liu, Ming‐Ming Cheng|arXiv (Cornell University)|Apr 9, 2018
Advanced Image and Video Retrieval Techniques参考文献 67被引用 40
一句话总结

DDS 引入信息转换器以在单一骨干网络中实现多样化深度监督,用于语义边缘检测,在 SBD 和 Cityscapes 上达到最先进的结果。

ABSTRACT

Semantic edge detection (SED), which aims at jointly extracting edges as well as their category information, has far-reaching applications in domains such as semantic segmentation, object proposal generation, and object recognition. SED naturally requires achieving two distinct supervision targets: locating fine detailed edges and identifying high-level semantics. Our motivation comes from the hypothesis that such distinct targets prevent state-of-the-art SED methods from effectively using deep supervision to improve results. To this end, we propose a novel fully convolutional neural network using diverse deep supervision (DDS) within a multi-task framework where bottom layers aim at generating category-agnostic edges, while top layers are responsible for the detection of category-aware semantic edges. To overcome the hypothesized supervision challenge, a novel information converter unit is introduced, whose effectiveness has been extensively evaluated on SBD and Cityscapes datasets.

研究动机与目标

  • 分析现有的 SED 方法为何因监督目标冲突而无法从深度监督中受益。
  • 提出一种 DDS 架构,利用信息转换器间接对底层和顶部层应用不同的监督。
  • 证明在转换器缓冲并与顶部语义边缘融合后,底部监督能改进定位。
  • 在 SBD 和 Cityscapes 上评估 DDS,以展示最先进性能并对设计选择进行消融分析。

提出的方法

  • 采用基于 ResNet 的骨干网络,Side-1 到 Side-4 产生二值的与类别无关的边缘图,通过信息转换器。
  • 引入一个信息转换器单元,缓冲底层特征并使底部(类别无关)与顶部(语义)目标的两种独立损失成为可能。
  • 在 Side-5 计算语义边缘,并通过堆叠边缘激活图和一个 K 分组的 1x1 卷积与底部边缘输出融合,产生最终的语义边缘。
  • 使用一个多任务损失进行训练,将 L_side^(m)(m 在 1..4)与最终语义边缘图的 L_fuse 相结合,并如式 (3)-(6) 那样使用重加权交叉熵。
  • 提供一种未加权的替代损失版本(DDS-U)以及与 SEAL 对齐的变体(DDS-R),以探索监督策略。
  • 遵循 CASENet 启发的架构,使用 ResNet 骨干网络,采用膨胀卷积和双线性上采样,并在 COCO 上预训练后再在 SBD/Cityscapes 上微调。

实验结果

研究问题

  • RQ1不同的监督目标(类别无关 vs. 语义边缘)是否可以在单一骨干网络中有效分离而不引发优化冲突?
  • RQ2引入信息转换器缓冲是否能够为 SED 提供有益的多样化深度监督?
  • RQ3底部边缘在通过专门的融合机制与顶部语义边缘结合后,是否能提升语义边缘定位?
  • RQ4与 CASENet 和其他基线(包括消融实验)相比,DDS 在标准 SED 基准(SBD 和 Cityscapes)上的表现如何?

主要发现

aer.bikebirdboatbot.buscarcatcha.cowtab.doghor.mot.per.pot.she.sofatraintvmean
Softmax74.064.164.852.552.173.268.173.243.156.237.367.468.467.676.742.764.337.564.656.360.2
Basic82.574.280.262.368.080.874.382.952.973.146.179.678.976.080.452.475.448.675.868.070.6
DSN81.675.678.461.367.682.374.682.652.471.945.979.278.376.280.151.974.948.076.566.870.3
CASENet+S484.176.480.763.770.381.373.479.456.970.747.677.581.074.579.954.574.848.372.669.470.9
DDS ∖ Convt83.377.181.763.670.681.273.979.556.871.948.078.381.275.279.754.376.848.975.168.771.3
DDS ∖ Convt †83.675.478.959.969.779.771.977.254.772.042.875.577.171.979.153.476.446.972.666.969.3
DDS ∖ DeSup82.577.481.562.470.881.673.880.556.972.446.677.980.173.479.954.876.647.573.367.870.9
CASENet83.376.080.763.469.281.374.983.254.374.846.480.380.276.680.853.377.250.175.966.871.4
DDS-R85.478.383.365.671.483.075.581.359.175.750.780.282.777.081.658.279.550.276.571.273.3
DDS-U87.279.784.768.373.083.776.782.360.479.450.981.283.678.382.060.182.751.278.072.774.8
  • DDS 在 SBD 上达到最先进性能,其中 DDS-U 的平均 F-measure 高于 CASENet 和 DSN 基线。
  • 消融实验表明信息转换器和底部监督显著提升结果,DDS-R 和 DDS-U 变体优于 CASENet 及其他基线。
  • DDS-R 和 DDS-U 在原始协议下达到 SBD 基准的平均 F-measure 分别为 73.3 和 74.8,优于先前方法。
  • 底部侧贡献在被信息转换器缓冲后,与顶部语义图融合后产生更平滑、精确的语义边缘。
  • 在所有消融中,使用残差块的更简单转换器设计提供了大部分增益,验证缓冲假设比严格的架构细节更重要。
  • DDS 在 Cityscapes 上展现稳健提升,表明对城市场景语义边缘检测任务具有泛化性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。