[论文解读] ContextNet: Exploring Context and Detail for Semantic Segmentation in Real-time
ContextNet 将一个深度低分辨率上下文分支与一个浅层高分辨率细节分支相结合,以实现低内存的实时语义分割;在 Cityscapes 全分辨率图像上达到 66.1% mIoU,18.3 fps。
Modern deep learning architectures produce highly accurate results on many challenging semantic segmentation datasets. State-of-the-art methods are, however, not directly transferable to real-time applications or embedded devices, since naive adaptation of such systems to reduce computational cost (speed, memory and energy) causes a significant drop in accuracy. We propose ContextNet, a new deep neural network architecture which builds on factorized convolution, network compression and pyramid representation to produce competitive semantic segmentation in real-time with low memory requirement. ContextNet combines a deep network branch at low resolution that captures global context information efficiently with a shallow branch that focuses on high-resolution segmentation details. We analyse our network in a thorough ablation study and present results on the Cityscapes dataset, achieving 66.1% accuracy at 18.3 frames per second at full (1024x2048) resolution (41.9 fps with pipelined computations for streamed data).
研究动机与目标
- 为自动驾驶和嵌入式设备激发低内存占用的实时语义分割的动机。
- 提出 ContextNet 架构,将来自下采样分支的全局上下文与高分辨率局部细节融合。
- 在 Cityscapes 数据集上进行详细消融实验的评估。
- 展示深层逐点卷积和剪枝可实现高效、准确的性能。
提出的方法
- 两分支结构:低分辨率的深层分支用于全局上下文,高分辨率的浅层分支用于细节精细化。
- 使用深度可分离卷积和瓶颈残差块以减少参数量和计算量。
- 通过融合单元将分支特征相加并对最终预测应用 1x1 卷积来融合。
- 在低分辨率分支上应用辅助损失,以促使全局上下文特征具有意义。
- 使用标准数据增强和 RMSprop 优化进行训练;在低精度设置下使用批量归一化和 ReLU6 以提高鲁棒性。
- 训练后剪枝网络以探索更小更快的变体( lottery-ticket 风格的剪枝)。
实验结果
研究问题
- RQ1一个在低分辨率下捕获全局上下文、在高分辨率下捕捉局部细节的两分支网络,是否能够在不显著损失精度的情况下实现实时语义分割?
- RQ2深度可分离卷积和瓶颈块如何影响 Cityscapes 规模数据上的精度、速度和内存?
- RQ3在嵌入式/实时设置下,网络剪枝对 ContextNet 的 mIoU 和运行时有什么影响?
主要发现
- 在剪枝后,ContextNet 在 Cityscapes 测试集上达到 66.1% mIoU。
- 在未剪枝的情况下,ContextNet 在 1024×2048 图像上,以单个 CPU 线程(Titan X 测量)实现 18.3 fps,mIoU 为 64.2%。
- 两分支设计,具有深度低分辨率上下文分支和浅层全分辨率细节分支,在精度和实时性能之间实现平衡。
- 剪枝使 Cityscapes 测试集的 mIoU 从 64.2% 提高到 66.1%。
- ContextNet 在全分辨率下以 18.3 fps 运行,在优化设置下的流水线数据可达到 41.9 fps。
- 与若干实时对手相比,ContextNet 以较低的内存占用(基础变体 0.85M 参数)实现具有竞争力的精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。