Skip to main content
QUICK REVIEW

[论文解读] CEDNet: A Cascade Encoder-Decoder Network for Dense Prediction

Gang Zhang, Ziyi Li|arXiv (Cornell University)|Feb 13, 2023
Advanced Neural Network Applications被引用 16
一句话总结

CEDNet 引入级联编码器-解码器阶段,在每个阶段内部融合多尺度特征,并在高层信号指导下实现早期特征融合,在检测、分割和实例分割任务上取得显著提升。

ABSTRACT

Multi-scale features are essential for dense prediction tasks, such as object detection, instance segmentation, and semantic segmentation. The prevailing methods usually utilize a classification backbone to extract multi-scale features and then fuse these features using a lightweight module (e.g., the fusion module in FPN and BiFPN, two typical object detection methods). However, as these methods allocate most computational resources to the classification backbone, the multi-scale feature fusion in these methods is delayed, which may lead to inadequate feature fusion. While some methods perform feature fusion from early stages, they either fail to fully leverage high-level features to guide low-level feature learning or have complex structures, resulting in sub-optimal performance. We propose a streamlined cascade encoder-decoder network, dubbed CEDNet, tailored for dense \mbox{prediction} tasks. All stages in CEDNet share the same encoder-decoder structure and perform multi-scale feature fusion within the decoder. A hallmark of CEDNet is its ability to incorporate high-level features from early stages to guide low-level feature learning in subsequent stages, thereby enhancing the effectiveness of multi-scale feature fusion. We explored three well-known encoder-decoder structures: Hourglass, UNet, and FPN. When integrated into CEDNet, they performed much better than traditional methods that use a pre-designed classification backbone combined with a lightweight fusion module. Extensive experiments on object detection, instance segmentation, and semantic segmentation demonstrated the effectiveness of our method. The code is available at https://github.com/zhanggang001/CEDNet.

研究动机与目标

  • 推动在密集预测任务中改进多尺度特征融合,超越传统骨干网络。
  • 提出一个级联的编码器-解码器架构,使所有阶段共享统一的编码器-解码器结构。
  • 实现高层特征在早期引导低层特征学习的跨阶段融合。
  • 评估三种编码器-解码器实现,并展示在多任务上相对于传统基于 FPN 的骨干网络的增益。

提出的方法

  • 提出一个多阶段级联网络(CEDNet),先有一个干预 stem,然后是 m 个级联阶段,在每个阶段执行多尺度特征融合。
  • 采用三种编码器-解码器风格(Hourglass、UNet、FPN),并证明它们都能良好工作,默认选择 FPN 风格以供进一步分析。
  • 使用 CED 块(token mixer + 用于通道交互的 MLP)作为核心构建块,带可选的 LR CED 块,包含一个 7x7 的膨胀深度卷积以获得长距离上下文。
  • 在各阶段共享编码器-解码器结构,使早期阶段的高层特征引导后期阶段的低层特征学习。
  • 尝试变体(CEDNet-NeXt-T/S/B),在通道维度、块数量和阶段数量上有所不同。
  • 在 COCO 上进行广泛微调以进行对象检测/实例分割,在 ADE20K 上进行语义分割的微调。

实验结果

研究问题

  • RQ1具有早期多尺度特征融合的级联编码器-解码器设计是否能在密集预测任务上优于具有轻量级融合模块的传统骨干?
  • RQ2在 CEDNet 中,哪种编码器-解码器风格(Hourglass、UNet 还是 FPN)在准确度与速度之间取得最佳折中?
  • RQ3将长距离(LR)CED 块引入是否以最小成本提升性能?
  • RQ4早期融合时机如何影响跨阶段的检测性能?
  • RQ5不同的 token mixer(DW 卷积、窗口注意力等)是否影响 CEDNet 在各任务上的增益?

主要发现

  • CEDNet 的变体在 COCO 目标检测/实例分割上,综合对比基于 ConvNeXt 的骨干网络,使用 FPN/NAS-FPN/BiFPN 时有显著提升。
  • 在 COCO val2017 上,CEDNet-NeXt-T 达到 APb 49.3、AP50 69.1、AP75 53.7;CEDNet-NeXt-S 达到 APb 50.3、AP50 70.2、AP75 55.2。
  • CEDNet 变体也在 ADE20K 的语义分割上通过多尺度测试将 mIoU 提升 0.8–2.2 个百分点,相对于 ConvNeXt 基线。
  • 在 COCO 上,CEDNet-NeXt-T 根据检测器(Deformable DETR、RetinaNet、Mask R-CNN、Cascade Mask R-CNN)把框 AP 提升 2.2–2.9 点、掩码 AP 提升 1.7–2.8 点;CEDNet-NeXt-S 也保持增益。
  • 消融实验显示更早的融合时机带来更好的 AP;LR CED 块在参数成本极低的情况下再带来约 0.4 点盒子 AP 增益。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。