[论文解读] Holistically-Nested Edge Detection
Holistically-Nested Edge Detection (HED) 是一种基于深度学习的边缘检测框架,采用全卷积神经网络(FCN)并结合深度监督的侧输出,以学习分层的多尺度特征,实现精确的图像到图像边缘预测。该方法在 BSD500(ODS F-score: 0.790)和 NYU Depth(0.746)数据集上达到最先进性能,单张图像推理速度为 0.4 秒(GPU 上),在准确性和效率方面显著优于以往基于 CNN 的方法。
We develop a new edge detection algorithm that tackles two important issues in this long-standing vision problem: (1) holistic image training and prediction; and (2) multi-scale and multi-level feature learning. Our proposed method, holistically-nested edge detection (HED), performs image-to-image prediction by means of a deep learning model that leverages fully convolutional neural networks and deeply-supervised nets. HED automatically learns rich hierarchical representations (guided by deep supervision on side responses) that are important in order to approach the human ability resolve the challenging ambiguity in edge and object boundary detection. We significantly advance the state-of-the-art on the BSD500 dataset (ODS F-score of .782) and the NYU Depth dataset (ODS F-score of .746), and do so with an improved speed (0.4 second per image) that is orders of magnitude faster than some recent CNN-based edge detection algorithms.
研究动机与目标
- 通过学习丰富且分层的视觉表征,解决自然图像中边缘与物体边界检测这一长期挑战。
- 在性能和速度上超越现有基于 CNN 的边缘检测方法,后者通常存在推理时间过长或准确率不理想的问题。
- 通过全卷积网络实现整体的图像到图像预测,避免基于图像块或多阶段处理的方法。
- 通过深度监督的侧输出实现多尺度和多层级特征学习,提升边缘定位与一致性的表现。
- 展示 HHA 特征(深度编码)在与 RGB 输入结合时,对提升边缘检测性能的有效性。
提出的方法
- HED 采用受 VGG-16 网络启发的全卷积神经网络(FCN)架构,并针对端到端边缘检测进行微调。
- 网络在多个卷积层(conv2、conv3、conv4、conv5)处集成深度监督的侧输出,以指导特征学习并改善梯度流动。
- 每个侧输出生成一个粗糙的边缘图,最终预测通过一个可学习的融合层对这些响应进行融合得到。
- 模型通过多任务损失函数进行端到端训练,结合所有侧输出和最终融合层的监督信号。
- 对于深度增强的检测,HED 使用 HHA 特征(水平视差、距地高度、表面法向角度)编码深度信息,与 RGB 输入并行处理。
- 推理阶段,采用 RGB 与 HHA 预测结果的平均值生成最终边缘图,从而提升鲁棒性与准确性。
实验结果
研究问题
- RQ1全卷积且深度监督的网络架构是否能在保持高推理速度的同时实现最先进水平的边缘检测性能?
- RQ2与单尺度或无监督方法相比,通过侧监督实现的多尺度和多层级特征学习在边缘定位与一致性方面有何提升?
- RQ3在基于 CNN 的框架中,将手工设计的 HHA 深度特征与深层 RGB 特征融合,能在多大程度上提升边缘检测性能?
- RQ4与基于图像块或分阶段的方法相比,采用整体图像监督的端到端训练是否能带来更好的泛化能力与边缘一致性?
- RQ5通过融合层整合多尺度响应的方法,在性能与鲁棒性方面,相较于晚期融合或早期融合策略有何差异?
主要发现
- HED 在 BSDS500 数据集上达到 0.790 的 ODS F-score,显著优于先前最先进方法。
- 在 NYU Depth 数据集上,HED 达到 0.746 的 ODS F-score,表明其在深度感知边缘检测任务中具有强大的泛化能力。
- 模型在 GPU 上运行速度为 2.5 FPS(使用 HHA 融合时为 1 FPS),CPU 上为每张图像 12 秒,适用于实时应用。
- 与仅使用 RGB 的检测相比,HHA 特征的引入提升了性能,RGB-HHA 融合模型在 NYU Depth 数据集上达到 0.746 的 ODS F-score。
- 深度监督显著提升了性能,如在 BSDS500 上,无监督时 ODS F-score 从 0.790 下降至 0.785。
- RGB 与 HHA 预测的后期融合(late fusion)实现了最高的平均精度(AP = 0.840),优于早期融合或单模态模型。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。