QUICK REVIEW

[论文解读] ICNet for Real-Time Semantic Segmentation on High-Resolution Images

Hengshuang Zhao, Xiaojuan Qi|arXiv (Cornell University)|Apr 27, 2017

Advanced Neural Network Applications参考文献 38被引用 130

一句话总结

ICNet 引入一个图像级联网络，使用级联特征融合单元和级联标签引导来实现对高分辨率图像的实时语义分割，具有相当的准确性。

ABSTRACT

We focus on the challenging task of real-time semantic segmentation in this paper. It finds many practical applications and yet is with fundamental difficulty of reducing a large portion of computation for pixel-wise label inference. We propose an image cascade network (ICNet) that incorporates multi-resolution branches under proper label guidance to address this challenge. We provide in-depth analysis of our framework and introduce the cascade feature fusion unit to quickly achieve high-quality segmentation. Our system yields real-time inference on a single GPU card with decent quality results evaluated on challenging datasets like Cityscapes, CamVid and COCO-Stuff.

研究动机与目标

为实际应用如自动驾驶中的高分辨率图像实时语义分割提供动机。
识别高分辨率分割中的计算瓶颈并评估简单的加速策略。
开发 ICNet 以高效融合多分辨率特征，从而获得准确、快速的预测。

提出的方法

提出一个图像级联网络（ICNet），在并行分支中处理低、中、高分辨率输入。
引入级联特征融合（CFF）单元，在与更高分辨率分支融合之前，对较低分辨率特征进行上采样和细化。
应用级联标签引导（CLG）来用与尺度相适应的真实标签训练每个分支，并在测试时仅使用高分辨率分支。
在高分辨率分支中使用轻量级 CNN 以在减少计算量的同时保留细节。
训练和推理时的下采样输入在降低总体计算量的同时保持分割质量。

实验结果

研究问题

RQ1如何整合多分辨率输入以在降低计算量的同时保持分割精度？
RQ2级联特征融合是否在不产生过高成本的前提下改善粗粒度预测的细化？
RQ3级联标签引导是否能够稳定训练并在不同分辨率上提高最终预测？

主要发现

ICNet 在单个 Titan X GPU 上对 1024×2048 的 Cityscapes 图像实现实时推理（约 30 fps）。
使用三个级联分支（低、中、高分辨率）在可比的 mIoU 下相较于压缩的 PSPNet 基线带来显著加速（最高 5.2×）。
级联特征融合（CFF）在多分辨率细化方面优于基于反卷积的上采样。
级联标签引导（CLG）提升跨分支的学习；移除 CLG 会降低性能。
在 Cityscapes 上，带有三分支的 ICNet 实现 67.7% mIoU，与仅使用基线 67.9% 相比仅有适度的加速；在对细粒和粗粒数据进行完整训练后，mIoU 提升至 70.6%，同时保持实时速度。
ICNet 还在 CamVid（67.1% mIoU，27.8 ms）和 COCO-Stuff（29.1% mIoU，28 ms）上取得了强劲结果，展示了跨数据集的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。