[论文解读] ShuffleSeg: Real-time Semantic Segmentation Network
ShuffleSeg 是一个实时语义分割网络,具有 ShuffleNet 启发的编码器,使用分组卷积和通道混洗,在 CityScapes 测试上实现 2x GFLOPs 降低和 58.3% mIoU,Jetson TX2 上 15.7 FPS。
Real-time semantic segmentation is of significant importance for mobile and robotics related applications. We propose a computationally efficient segmentation network which we term as ShuffleSeg. The proposed architecture is based on grouped convolution and channel shuffling in its encoder for improving the performance. An ablation study of different decoding methods is compared including Skip architecture, UNet, and Dilation Frontend. Interesting insights on the speed and accuracy tradeoff is discussed. It is shown that skip architecture in the decoding method provides the best compromise for the goal of real-time performance, while it provides adequate accuracy by utilizing higher resolution feature maps for a more accurate segmentation. ShuffleSeg is evaluated on CityScapes and compared against the state of the art real-time segmentation networks. It achieves 2x GFLOPs reduction, while it provides on par mean intersection over union of 58.3% on CityScapes test set. ShuffleSeg runs at 15.7 frames per second on NVIDIA Jetson TX2, which makes it of great potential for real-time applications.
研究动机与目标
- 开发一个计算效率高的实时语义分割网络。
- 利用受 ShuffleNet 启发的编码器,采用分组卷积和通道混洗。
- 系统性比较解码策略并确定最佳的速度-精度权衡。
- 在 CityScapes 上以较低 FLOPs 展示具有竞争力的精度。
- 在嵌入式硬件(Jetson TX2)上评估实时性能。
提出的方法
- 基于 ShuffleNet、采用分组卷积和通道混洗的编码器。
- 下采样通过初始 3x3 卷积(步幅为 2)和 2x2 最大池化实现,随后是三个 ShuffleNet 单元阶段,达到 32x 的下采样因子。
- 解码器包含四种解码方法(UNet、SkipNet、Dilation8s、Dilation4s),其中 SkipNet 以获得最佳权衡被选中。
- 在粗标注上进行预训练,以改善代表性不足的类别,然后再在细标注上进行微调。
- 训练设置使用加权交叉熵(类别权重 w_class = 1 / ln(c + p_class),c = 1.02)、L2 正则化、Adam 优化器、批量归一化,以及 ImageNet 预训练的编码器权重。
- 在 512x1024 的 CityScapes 图像(20 类)上进行实验;代码将公开发布。
实验结果
研究问题
- RQ1不同解码策略如何影响实时分割的速度和精度?
- RQ2基于 ShuffleNet 的编码器结合通道混洗,是否能够在低计算成本下维持具有竞争力的精度?
- RQ3在更大且更嘈杂的标注上进行粗略预训练,是否能提升 CityScapes 细粒度类别的性能?
- RQ4在嵌入式硬件上,ShuffleSeg 的实际实时性能(FPS)是多少?
- RQ5与最先进的轻量化分割网络在 FLOPs 与精度方面相比,ShuffleSeg 的表现如何?
主要发现
| 模型 | GFLOPs | 类别 IoU | 类别 iIoU | 类别 IoU | 类别 iIoU |
|---|---|---|---|---|---|
| SegNet | 286.03 | 56.1 | 34.2 | 79.8 | 66.4 |
| ENet | 3.83 | 58.3 | 24.4 | 80.4 | 64.0 |
| ShuffleSeg | 2.03 | 58.3 | 32.4 | 80.2 | 62.2 |
- SkipNet 解码在所测试的方法中提供了最佳的效率-精度权衡。
- ShuffleSeg 需要 2.03 GFLOPs,在 CityScapes 测试上实现 58.3% mean IoU(与轻量对手旗鼓相当)。
- ShuffleSeg 在 NVIDIA Jetson TX2 上以 15.7 FPS 运行,支持在嵌入式设备上的实时部署。
- 粗略预训练带来显著的准确度提升(整体 mean IoU 大约提升 ~4%)。
- 与 SegNet 相比,ShuffleSeg 在精度相似的情况下 GFLOPs 少 141 倍;与 ENet 相比,ShuffleSeg 在接近的精度下使用 2x 更少的 GFLOPs(58.3% mIoU)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。