Skip to main content
QUICK REVIEW

[논문 리뷰] C3: Concentrated-Comprehensive Convolution and its application to semantic segmentation

Hyojin Park, Youngjoon Yoo|arXiv (Cornell University)|2018. 12. 12.
Advanced Neural Network Applications인용 수 31
한 줄 요약

이 논문은 경량 세분화 모델에서 표준 확장된 컨벌루션을 대체하기 위해 C3라는 새로운 컨벌루션 블록을 제안한다. 이는 정확도를 유지하면서 계산 복잡도를 감소시킨다. 국소적 특징 집중을 위한 깊이 지능 비대칭 컨벌루션과 확장된 수용장역을 위한 깊이 지능 분리 가능 확장된 컨벌루션을 조합함으로써 C3는 공간 정보를 유지하고 특징 활성화를 향상시킨다. 이 방법은 ESPNet 대비 최대 35% 적은 FLOPs와 50% 적은 파라미터를 달성하면서 Cityscapes에서 mIOU를 약 2% 향상시킨다.

ABSTRACT

One of the practical choices for making a lightweight semantic segmentation model is to combine a depth-wise separable convolution with a dilated convolution. However, the simple combination of these two methods results in an over-simplified operation which causes severe performance degradation due to loss of information contained in the feature map. To resolve this problem, we propose a new block called Concentrated-Comprehensive Convolution (C3) which applies the asymmetric convolutions before the depth-wise separable dilated convolution to compensate for the information loss due to dilated convolution. The C3 block consists of a concentration stage and a comprehensive convolution stage. The first stage uses two depth-wise asymmetric convolutions for compressed information from the neighboring pixels to alleviate the information loss. The second stage increases the receptive field by using a depth-wise separable dilated convolution from the feature map of the first stage. We applied the C3 block to various segmentation frameworks (ESPNet, DRN, ERFNet, ENet) for proving the beneficial properties of our proposed method. Experimental results show that the proposed method preserves the original accuracies on Cityscapes dataset while reducing the complexity. Furthermore, we modified ESPNet to achieve about 2% better performance while reducing the number of parameters by half and the number of FLOPs by 35% compared with the original ESPNet. Finally, experiments on ImageNet classification task show that C3 block can successfully replace dilated convolutions.

연구 동기 및 목표

  • 깊이 지능 분리 가능하고 확장된 컨벌루션의 단순 통합으로 인한 경량 세분화 모델의 성능 저하 문제를 해결하기 위해.
  • 확장된 컨벌루션으로 인한 정보 손실을 완화하면서 모델 복잡도를 줄이는 새로운 컨벌루션 블록을 설계하기 위해.
  • 재학습 없이도 기존 세분화 프레임워크에서 확장된 컨벌루션을 즉시 교체할 수 있도록 하기 위해.
  • 제안된 블록이 세분화를 넘어서 이미지 분류 작업 등 다양한 작업에 일반화될 수 있는지 입증하기 위해.
  • 정확도를 희생시키지 않고 임베디드 시스템에서 실시간 추론을 가능하게 하기 위해.

제안 방법

  • C3 블록은 두 단계로 구성된다: 국소적 특징 일관성을 향상시키기 위해 이중 깊이 지능 비대칭 컨벌루션을 사용하는 농축 단계.
  • 두 번째 단계에서는 수용장역을 확장하면서도 저비용을 유지하는 깊이 지능 분리 가능 확장된 컨벌루션을 적용한다.
  • 농축 단계는 확장된 컨벌루션을 적용하기 전에 국소 픽셀 이웃에 집중함으로써 정보 손실를 줄인다.
  • C3 블록은 ESPNet, ERFNet, ENet, DRN과 같은 인코더-디코더 아키텍처에서 표준 확장된 컨벌루션을 즉시 교체할 수 있는 플러그 앤 플레이 방식으로 대체한다.
  • C3 블록은 이미지 분류를 위한 DRN에 적용되어 잔차 블록 내 확장된 컨벌루션을 대체함으로써 파라미터와 FLOPs를 줄였다.
  • Grad-CAM을 사용하여 특징 활성화 맵을 시각화함으로써 개선된 국소화 및 특징 복구 능력을 정성적으로 검증하였다.

실험 결과

연구 질문

  • RQ1세분화 모델에서 FLOPs와 파라미터를 줄이면서도 성능을 유지할 수 있는 경량 컨벌루션 블록을 설계할 수 있는가?
  • RQ2깊이 지능 분리 가능 컨벌루션과 확장된 컨벌루션의 조합이 성능 저하를 유발하는 이유는 무엇이며, 이를 어떻게 완화할 수 있는가?
  • RQ3제안된 C3 블록이 ESPNet, ERFNet, ENet, DRN과 같은 다양한 아키텍처에서 확장된 컨벌루션을 효과적으로 대체할 수 있는가?
  • RQ4확장된 컨벌루션을 대체할 때 C3 블록이 세분화 및 분류 작업 모두에서 성능을 유지하거나 향상시킬 수 있는가?
  • RQ5C3 블록을 통해 정확도를 희생시키지 않고 임베디드 시스템에서 실시간 추론을 구현할 수 있는가?

주요 결과

  • 수정된 ESPNet에서 C3 블록은 파라미터를 50% 감소시키고 FLOPs를 35% 감소시켰으며, Cityscapes 데이터셋에서 mIOU를 약 2% 향상시켰다.
  • C3-ENet는 원본 ENet 대비 26% 적은 FLOPs로 2%의 성능 향상을 달성했다.
  • C3-ERFNet는 기준 ERFNet 대비 30% 적은 파라미터로 1% 이상의 mIOU 향상을 보였다.
  • C3-DRN-C26는 DRN-C26 대비 파라미터를 63% 감소시키고 FLOPs를 61% 감소시켰으며, mIOU는 단지 0.4% 감소에 그쳤다.
  • ImageNet에서 C3-DRN-C44*는 파라미터를 30% 감소시키고 FLOPs를 50% 감소시켰으며, DRN-C26보다 높은 top-1 정확도를 달성했다.
  • Grad-CAM 시각화 결과, C3 블록이 표준 깊이 지능 분리 가능 확장된 컨벌루션보다 특징 활성화를 더 잘 복구함을 확인하여 국소화 능력 향상이 확인되었다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.