[论文解读] LEDNet: A Lightweight Encoder-Decoder Network for Real-Time Semantic Segmentation
LEDNet 是一种轻量级、非对称的编码器-解码器卷积神经网络,适用于实时语义分割。它在残差块中使用通道拆分与通道混洗操作,在减少计算量的同时保持高精度,并在解码器中引入注意力金字塔网络(APN)以增强特征表示。该网络在单张 GTX 1080Ti 上实现超过 71 FPS 的推理速度,参数量少于 100 万个,mIoU 达到 87.1% 的最先进性能。
The extensive computational burden limits the usage of CNNs in mobile devices for dense estimation tasks. In this paper, we present a lightweight network to address this problem,namely LEDNet, which employs an asymmetric encoder-decoder architecture for the task of real-time semantic segmentation.More specifically, the encoder adopts a ResNet as backbone network, where two new operations, channel split and shuffle, are utilized in each residual block to greatly reduce computation cost while maintaining higher segmentation accuracy. On the other hand, an attention pyramid network (APN) is employed in the decoder to further lighten the entire network complexity. Our model has less than 1M parameters,and is able to run at over 71 FPS in a single GTX 1080Ti GPU. The comprehensive experiments demonstrate that our approach achieves state-of-the-art results in terms of speed and accuracy trade-off on CityScapes dataset.
研究动机与目标
- 为解决深度卷积神经网络在移动设备和实时应用中的计算负担,特别是针对语义分割等密集预测任务。
- 设计一种轻量级网络,在资源受限设备上实现高分割精度与低推理成本之间的平衡。
- 通过在残差块中引入新型操作和高效的解码器结构,降低模型复杂度,同时不损失特征表示能力。
- 在 CityScapes 基准上实现速度、精度与模型大小之间新的最先进权衡。
提出的方法
- 编码器采用基于 ResNet 的主干网络,其新型残差模块通过通道拆分与通道混洗操作,在降低计算成本的同时增强特征交互。
- 通道拆分将输入特征分为两个分支,每个分支通道数减半,随后使用深度可分离卷积,并通过通道混洗操作实现跨通道特征混合。
- 解码器采用注意力金字塔网络(APN),利用带可学习注意力权重的空间金字塔池化,高效聚合多尺度特征。
- APN 结构在不显著增加参数量的前提下实现大感受野,以极低的计算开销提升特征表示能力。
- 整个网络采用端到端训练,使用标准优化方法,配合多项式学习率策略、动量和权重衰减。
- 通过最小化参数量和使用可分离卷积,对模型进行推理速度优化,在消费级 GPU 上实现高帧率。
实验结果
研究问题
- RQ1轻量级编码器-解码器架构能否在移动平台实现高分割精度的同时保持实时推理速度?
- RQ2通道拆分与通道混洗操作如何在残差块中提升特征表示并减少计算量?
- RQ3解码器中的基于注意力的金字塔结构能否替代复杂的空洞卷积,同时保持性能并降低复杂度?
- RQ4在采用非对称编码器-解码器设计时,模型大小、推理速度与分割精度之间的权衡关系如何?
主要发现
- 在使用精细与粗糙标注联合训练时,LEDNet 在 CityScapes 测试集上达到 87.1% 的类别 mIoU,优于所有对比基线模型。
- 该模型在单张 GTX 1080Ti GPU 上推理速度超过 71 FPS,适用于实时应用。
- 参数量少于 100 万个,LEDNet 比 SegNet 小 30 倍,且比 ENet 快 1.5 倍,同时精度更高。
- LEDNet 在 CityScapes 数据集上实现了速度与精度的最佳权衡,优于 ERFNet、ICNet 和 CGNet 等最先进轻量级网络。
- 在 CityScapes 测试集的 19 个类别中,LEDNet 在其中 13 个类别的 mIoU 达到最高,表明其在各类物体上均具有强大的泛化能力。
- 可视化对比显示,LEDNet 在小尺寸及复杂物体(如行人和交通标志)上也能生成一致且准确的分割结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。