Skip to main content
QUICK REVIEW

[论文解读] C3: Concentrated-Comprehensive Convolution and its application to semantic segmentation

Hyojin Park, Youngjoon Yoo|arXiv (Cornell University)|Dec 12, 2018
Advanced Neural Network Applications被引用 31
一句话总结

本文提出C3,一种新型卷积模块,用于在轻量级语义分割模型中替代标准空洞卷积,以在不损失精度的前提下降低计算复杂度。通过结合深度可分离非对称卷积以集中局部特征,随后使用深度可分离空洞卷积以扩大感受野,C3模块在保留空间信息的同时提升了特征激活效果。该方法在ESPNet基础上实现最多35%的FLOPs减少和50%的参数减少,同时在Cityscapes数据集上将mIOU提升约2%。

ABSTRACT

One of the practical choices for making a lightweight semantic segmentation model is to combine a depth-wise separable convolution with a dilated convolution. However, the simple combination of these two methods results in an over-simplified operation which causes severe performance degradation due to loss of information contained in the feature map. To resolve this problem, we propose a new block called Concentrated-Comprehensive Convolution (C3) which applies the asymmetric convolutions before the depth-wise separable dilated convolution to compensate for the information loss due to dilated convolution. The C3 block consists of a concentration stage and a comprehensive convolution stage. The first stage uses two depth-wise asymmetric convolutions for compressed information from the neighboring pixels to alleviate the information loss. The second stage increases the receptive field by using a depth-wise separable dilated convolution from the feature map of the first stage. We applied the C3 block to various segmentation frameworks (ESPNet, DRN, ERFNet, ENet) for proving the beneficial properties of our proposed method. Experimental results show that the proposed method preserves the original accuracies on Cityscapes dataset while reducing the complexity. Furthermore, we modified ESPNet to achieve about 2% better performance while reducing the number of parameters by half and the number of FLOPs by 35% compared with the original ESPNet. Finally, experiments on ImageNet classification task show that C3 block can successfully replace dilated convolutions.

研究动机与目标

  • 解决在轻量级语义分割模型中,由于简单集成深度可分离卷积与空洞卷积而导致的性能下降问题。
  • 设计一种新型卷积模块,以缓解空洞卷积带来的信息损失,同时降低模型复杂度。
  • 实现在现有分割框架中无需微调即可即插即用替换空洞卷积。
  • 证明所提出模块在语义分割之外任务中的泛化能力,包括图像分类任务。
  • 实现在嵌入式系统上实现实时推理,同时提升精度并降低计算成本。

提出的方法

  • C3模块包含两个阶段:第一阶段使用两个深度可分离非对称卷积,压缩邻近空间信息,提升局部特征一致性。
  • 第二阶段应用深度可分离空洞卷积,以较低计算成本扩展感受野。
  • 集中阶段通过聚焦局部像素邻域,在应用空洞卷积前减少信息损失。
  • 该方法以即插即用方式,将标准空洞卷积在编码器-解码器架构(如ESPNet、ERFNet、ENet和DRN)中替换为C3模块。
  • C3模块也被适配用于DRN以进行图像分类,替换残差块中的空洞卷积,从而减少参数量与FLOPs。
  • 通过Grad-CAM可视化特征激活图,定性验证了改进的定位能力与特征恢复效果。

实验结果

研究问题

  • RQ1能否设计一种轻量级卷积模块,在语义分割模型中实现FLOPs与参数量减少的同时保持性能?
  • RQ2为何组合深度可分离卷积与空洞卷积会导致性能下降?该问题如何缓解?
  • RQ3所提出的C3模块能否在ESPNet、ERFNet、ENet和DRN等多样化架构中有效替代空洞卷积?
  • RQ4当C3模块替代空洞卷积时,其在分割与分类任务中是否能保持或提升性能?
  • RQ5C3模块能否在不损失精度的前提下,实现在嵌入式系统上的实时推理?

主要发现

  • 在修改后的ESPNet中,C3模块将参数量减少50%,FLOPs减少35%,同时在Cityscapes数据集上将mIOU提升约2%。
  • C3-ENet在FLOPs减少26%的情况下实现2%的性能增益,优于原始ENet。
  • C3-ERFNet在参数量减少30%的情况下,mIOU提升超过1%。
  • 与DRN-C26相比,C3-DRN-C26将参数量减少63%,FLOPs减少61%,mIOU仅下降0.4%。
  • 在ImageNet上,C3-DRN-C44*将参数量减少30%,FLOPs减少50%,同时达到高于DRN-C26的top-1准确率。
  • Grad-CAM可视化结果表明,C3模块在特征激活恢复方面优于标准深度可分离空洞卷积,表明其具备更强的定位能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。