[论文解读] DFANet: Deep Feature Aggregation for Real-Time Semantic Segmentation
DFANet 引入深度特征聚合与子网络及子阶段级联,以实现高分辨率的实时语义分割,FLOPs 显著降低且精度具有竞争力。
This paper introduces an extremely efficient CNN architecture named DFANet for semantic segmentation under resource constraints. Our proposed network starts from a single lightweight backbone and aggregates discriminative features through sub-network and sub-stage cascade respectively. Based on the multi-scale feature propagation, DFANet substantially reduces the number of parameters, but still obtains sufficient receptive field and enhances the model learning ability, which strikes a balance between the speed and segmentation performance. Experiments on Cityscapes and CamVid datasets demonstrate the superior performance of DFANet with 8$ imes$ less FLOPs and 2$ imes$ faster than the existing state-of-the-art real-time semantic segmentation methods while providing comparable accuracy. Specifically, it achieves 70.3\% Mean IOU on the Cityscapes test dataset with only 1.7 GFLOPs and a speed of 160 FPS on one NVIDIA Titan X card, and 71.3\% Mean IOU with 3.4 GFLOPs while inferring on a higher resolution image.
研究动机与目标
- 在受限计算条件下解决高分辨率图像的实时语义分割挑战。
- 开发一个轻量而具辨别性的特征聚合机制,用于融合多尺度上下文与空间细节。
- 通过复用高级特征并跨阶段与网络聚合特征,平衡推理速度与精度。
- 证明级联的多骨干设计在提升速度的同时仍保持有竞争力的 mIoU。
提出的方法
- 使用基于 Xception 的轻量骨干,采用深度可分卷积。
- 引入子网络聚合:堆叠骨干网络,使一个骨干网络的输出传递给下一个以细化高层特征。
- 引入子阶段聚合:在骨干之间对应阶段融合特征,以保留空间细节和上下文。
- 在骨干末端附加一个 FC-注意力模块,以在最小计算的前提下增大感受野。
- 使用一个轻量解码器,通过上采样和简单卷积融合高层与低层特征。
- 使用标准交叉熵损失和数据增强进行训练,采用 SGD 及多项式学习率策略。
实验结果
研究问题
- RQ1在实时约束下,跨网络层级和阶段的深度特征聚合是否能提升分割精度?
- RQ2堆叠多个轻量骨干并在阶段层级进行融合对精度与 FLOPs 有何影响?
- RQ3在 Cityscapes 和 CamVid 上,DFANet 与现有实时分割方法在速度和精度方面有何比较?
- RQ4在轻量骨干用于语义分割时,FC 注意力的作用是什么?
- RQ5输入分辨率、骨干复杂度与整体性能之间的权衡是什么?
主要发现
- DFANet 在 Cityscapes 验证集上以 3.4 GFLOPs、Backbone A x3+HL+LL 获得 71.9% mIoU;Backbone B x3+HL+LL 在 2.1 GFLOPs 时为 68.4% mIoU。
- 在 Cityscapes 测试上,DFANet A 在 3.4 GFLOPs 与 100 FPS 下达到 71.3% mIoU,DFANet A’ 在 1.7 GFLOPs 与 160 FPS 下达到 70.3% mIoU。
- 与此前的实时方法相比,DFANet 在 FLOPs 上最多更小 8 倍,速度最多提升 2 倍,同时保持有竞争力的精度。
- DFANet 在 Cityscapes 上优于许多实时基线,同时使用明显更少的 FLOPs(如 1.7G–3.4G FLOPs 变体,70–71% mIoU)。
- CamVid 的结果显示 DFANet A 达到 120 FPS,DFANet B 达到 160 FPS,且高分辨率视频帧的 mIoU 具有竞争力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。