[论文解读] CASENet: Deep Category-Aware Semantic Edge Detection
CASENet 提出了一种用于类别感知语义边缘检测的端到端深度学习架构,采用新颖的跳跃层设计,通过在类别特定的边缘头之间共享底层特征,并利用多标签损失进行特征融合。该方法在 SBD 和 Cityscapes 数据集上实现了最先进性能,平均 F1 值和平均精度均显著优于先前方法。
Boundary and edge cues are highly beneficial in improving a wide variety of vision tasks such as semantic segmentation, object recognition, stereo, and object proposal generation. Recently, the problem of edge detection has been revisited and significant progress has been made with deep learning. While classical edge detection is a challenging binary problem in itself, the category-aware semantic edge detection by nature is an even more challenging multi-label problem. We model the problem such that each edge pixel can be associated with more than one class as they appear in contours or junctions belonging to two or more semantic classes. To this end, we propose a novel end-to-end deep semantic edge learning architecture based on ResNet and a new skip-layer architecture where category-wise edge activations at the top convolution layer share and are fused with the same set of bottom layer features. We then propose a multi-label loss function to supervise the fused activations. We show that our proposed architecture benefits this problem with better performance, and we outperform the current state-of-the-art semantic edge detection methods by a large margin on standard data sets such as SBD and Cityscapes.
研究动机与目标
- 解决多标签语义边缘检测的挑战,即边缘像素可同时属于多个物体类别。
- 通过在语义类别间共享底层特征来建模类别特定的边缘激活,从而提升边缘检测精度。
- 开发一个统一的深度学习框架,联合检测边缘并将其分配给多个语义类别。
- 在 SBD 和 Cityscapes 等标准基准上超越现有最先进方法。
- 通过提供精确且类别感知的边缘监督,提升下游视觉任务的性能。
提出的方法
- 提出一种嵌套跳跃层架构,其中类别特定的边缘头共享并从同一组底层卷积特征中融合信息。
- 引入一种多标签损失函数,对融合后的激活进行监督,使每个边缘像素可关联多个语义类别。
- 使用 ResNet 作为主干网络以提取分层特征,并通过跳跃连接实现多尺度特征融合。
- 采用双分支设计:一个用于类别特定的边缘预测,另一个用于特征共享,从而提升特征利用率。
- 采用端到端训练,通过多标签损失联合优化网络所有参数。
- 使用 HSV 颜色编码可视化预测结果,以表示每个边缘像素的多重类别关联。
实验结果
研究问题
- RQ1深度神经网络能否有效检测边缘,同时将其分配给多个语义类别?
- RQ2在类别特定的边缘头之间共享底层特征是否能提升多标签语义边缘检测的性能?
- RQ3与二值或多任务损失相比,多标签损失函数是否能带来更优的学习动态并提升检测精度?
- RQ4所提出的架构在 SBD 和 Cityscapes 等标准基准上与现有最先进方法相比表现如何?
- RQ5该模型在具有重叠和交汇物体边界的复杂场景中泛化能力如何?
主要发现
- 在 SBD 基准上,CASENet 的平均 F1 值达到 80.8%,比之前最先进方法 DSN 提高 3.5 个百分点。
- 在 Cityscapes 上,CASENet 的平均 F1 值达到 71.3%,显著优于 DSN 的 68.5%。
- 对于行人类别,CASENet 在 Cityscapes 上的平均 F1 值达到 81.5%,高于 DSN 的 77.5%。
- 对于船只类别,CASENet 将平均 F1 值从 DSN 的 72.1% 提升至 74.6%。
- 该模型在具有挑战性的交汇点和重叠物体边界上表现更优,误报更少。
- 定性结果表明,CASENet 生成的边缘图更准确且更连贯,尤其在复杂类别组合如 '建筑物+行人' 和 '道路+人行道' 上表现突出。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。