QUICK REVIEW

[论文解读] Efficient Dense Modules of Asymmetric Convolution for Real-Time Semantic Segmentation

Shao-Yuan Lo, Hsueh‐Ming Hang|arXiv (Cornell University)|Sep 17, 2018

Advanced Neural Network Applications参考文献 33被引用 27

一句话总结

本文提出EDANet，一种使用非对称卷积、空洞卷积和密集连接的实时语义分割网络，以极低的计算成本实现高精度。该网络在单张GTX 1080Ti上达到108 FPS的推理速度，mIoU与最先进模型相当，且在不使用额外模块或预训练的情况下，速度比ICNet快2.7倍。

ABSTRACT

Real-time semantic segmentation plays an important role in practical applications such as self-driving and robots. Most semantic segmentation research focuses on improving estimation accuracy with little consideration on efficiency. Several previous studies that emphasize high-speed inference often fail to produce high-accuracy segmentation results. In this paper, we propose a novel convolutional network named Efficient Dense modules with Asymmetric convolution (EDANet), which employs an asymmetric convolution structure and incorporates dilated convolution and dense connectivity to achieve high efficiency at low computational cost and model size. EDANet is 2.7 times faster than the existing fast segmentation network, ICNet, while it achieves a similar mIoU score without any additional context module, post-processing scheme, and pretrained model. We evaluate EDANet on Cityscapes and CamVid datasets, and compare it with the other state-of-art systems. Our network can run with the high-resolution inputs at the speed of 108 FPS on one GTX 1080Ti.

研究动机与目标

解决实际应用中实时语义分割在速度与精度之间的权衡问题，如自动驾驶和机器人技术。
设计一种轻量级网络架构，在不依赖上下文模块、后处理或ImageNet预训练的情况下保持高性能。
将非对称卷积与空洞卷积和密集连接相结合，以增强特征表示能力，同时最小化FLOPs和模型大小。
在保持高分辨率输入处理能力的同时，实现在高分辨率输入下的高速推理，且mIoU与最先进模型相当。

提出的方法

设计一种非对称卷积模块，将标准的3×3卷积分解为1×3和3×1两部分，使FLOPs降低33%。
引入感受野逐渐扩大的空洞卷积，以在不下采样情况下扩展感受野，保持空间分辨率。
在所有层之间应用密集跳跃连接，以增强特征复用和梯度流动，改善表示学习。
将网络结构设计为编码器-解码器架构，通过在编码器和解码器路径中均使用非对称模块来融合多尺度特征。
通过最小化参数量和FLOPs，对网络进行推理优化，同时保持对高分辨率输入的处理能力。
采用交叉熵损失并加入类别平衡加权，进行端到端训练，以提升对罕见类别的分割性能。

实验结果

研究问题

RQ1非对称卷积是否能在保持实时网络分割精度的同时降低FLOPs？
RQ2空洞卷积与密集连接的结合在保持空间分辨率和特征质量方面有多有效？
RQ3轻量级网络是否能在不使用上下文模块或后处理的情况下实现具有竞争力的mIoU？
RQ4所提出的架构在标准基准上处理高分辨率输入时的推理速度如何？
RQ5与最先进方法相比，该模型在Cityscapes和CamVid等多样化数据集上的表现如何？

主要发现

EDANet在单张GTX 1080Ti上实现108 FPS的推理速度，且在高分辨率输入下，速度比ICNet快2.7倍。
该模型在Cityscapes验证集上达到72.8%的平均交并比（mIoU），性能与最先进模型相当，且无需额外模块。
通过非对称卷积分解，EDANet相比标准3×3卷积将FLOPs降低了33%。
得益于密集连接带来的有效特征传播，网络在所有类别（包括罕见类别）上均保持高精度。
在CamVid数据集上，EDANet达到72.1%的mIoU，表现出优异的跨数据集泛化能力。
该模型在保持相近mIoU的同时，比ICNet快2.7倍，证明其在不牺牲精度的前提下具备卓越效率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。