Skip to main content
QUICK REVIEW

[논문 리뷰] MixConv: Mixed Depthwise Convolutional Kernels

Mingxing Tan, Quoc V. Le|arXiv (Cornell University)|2019. 07. 22.
Advanced Neural Network Applications참고 문헌 31인용 수 295
한 줄 요약

MixConv는 단일 depthwise 연산 내에 여러 커널 크기를 적용하는 혼합 깊이wise 컨볼루션을 도입하여 MobileNets의 정확도와 효율성을 개선하고 신경망 구조 탐색을 통해 MixNets를 가능하게 한다.

ABSTRACT

Depthwise convolution is becoming increasingly popular in modern efficient ConvNets, but its kernel size is often overlooked. In this paper, we systematically study the impact of different kernel sizes, and observe that combining the benefits of multiple kernel sizes can lead to better accuracy and efficiency. Based on this observation, we propose a new mixed depthwise convolution (MixConv), which naturally mixes up multiple kernel sizes in a single convolution. As a simple drop-in replacement of vanilla depthwise convolution, our MixConv improves the accuracy and efficiency for existing MobileNets on both ImageNet classification and COCO object detection. To demonstrate the effectiveness of MixConv, we integrate it into AutoML search space and develop a new family of models, named as MixNets, which outperform previous mobile models including MobileNetV2 [20] (ImageNet top-1 accuracy +4.2%), ShuffleNetV2 [16] (+3.5%), MnasNet [26] (+1.3%), ProxylessNAS [2] (+2.2%), and FBNet [27] (+2.0%). In particular, our MixNet-L achieves a new state-of-the-art 78.9% ImageNet top-1 accuracy under typical mobile settings (<600M FLOPS). Code is at https://github.com/ tensorflow/tpu/tree/master/models/official/mnasnet/mixnet

연구 동기 및 목표

  • 깊이wise 컨볼루션에서 커널 크기의 영향력을 동기화하고 단일 커널 디자인의 한계를 식별한다.
  • 하나의 깊이wise 컨볼루션에서 여러 커널 크기를 혼합하도록 MixConv를 제안한다.
  • ImageNet 및 COCO에서 정확도와 효율성을 개선하는 드롭인 대체로 MixConv를 입증한다.
  • 신경망 아키텍처 탐색을 통해 MixNets를 개발하여 최첨단 모바일 성능을 달성한다.
  • 표준 데이터셋에서 MixNets의 전이 학습 효과를 보인다.

제안 방법

  • 입력 채널을 그룹으로 분할하고 그룹별로 서로 다른 커널 크기를 적용하도록 MixConv를 정의한다.
  • 그룹당 커널 크기를 증가하는 홀수 크기로 제한한다(3x3, 5x5, 7x7, 9x9, ...).
  • 채널 분할 전략(동일 분할 vs 지수 분할)을 탐색하고 확장 확장(dilated) 대안과 비교한다.
  • MobileNets의 바닐라 depthwise 컨볼루션에 대한 드롭인 대체로 MixConv를 제시한다.
  • 신경망 아키텍처 탐색(MnasNet 스타일)을 사용하여 MixNets를 도출하고 ImageNet 및 전이 데이터셋에서 평가한다.

실험 결과

연구 질문

  • RQ1단일 커널 깊이wise 컨볼루션에 비해 하나의 깊이wise 컨볼루션에서 다중 커널 크기를 결합하면 정확도와 효율성이 향상되는가?
  • RQ2모바일 모델을 위한 MixConv의 효과적인 설계 선택은 무엇인가(그룹 크기, 그룹당 커널 크기, 채널 분할)?
  • RQ3MixConv 기반 아키텍처(MixNets)가 FLOPS 제약하에 ImageNet 및 전이 데이터셋에서 기존 모바일 네트보다 성능을 상회할 수 있는가?
  • RQ4객체 탐지(COCO)에서 MixConv의 성능은 바닐라 depthwise conv에 비해 어떤가?
  • RQ5다중 커널 혼합과 함께 매우 큰 커널이 여전히 유익한가?

주요 결과

모델유형#Params#FLOPSTop-1Top-5
MixNet-Sauto4.1M256M75.892.8
MixNet-Mauto5.0M360M77.093.3
MixNet-Lauto7.3M565M78.994.2
  • MixConv는 바닐라 depthwise 컨볼루션의 간단한 드롭인 대체로 작동하며 ImageNet 및 COCO에서 MobileNets의 정확도와 효율성을 향상시킨다.
  • 다중 커널 크기를 사용하면 매우 큰 단일 커널에서 발생하는 정확도 감소를 완화하여 더 큰 수용 영역을 더 적은 페널티로 달성할 수 있다.
  • NAS를 통해 발견된 MixNets는 유사 FLOPS에서 MobileNetV2, ShuffleNetV2, MnasNet, ProxylessNAS, FBNet을 능가하며 MixNet-L에서 ImageNet의 Top-1 78.9%를 달성한다.
  • MixNet-S와 MixNet-M은 CIFAR-10/100, Pets, Food-101에서 강력한 전이 학습 결과를 보이며, MixNet-M은 ResNet-50보다 훨씬 낮은 FLOPS로 전이 작업에서 97.92% 정확도를 달성한다.
  • 지수형 채널 분할은 매개변수/연산량을 줄이면서도 정확도를 유지할 수 있으며, 대부분의 경우 큰 커널 MixConv에 비해 확장된 변형이 성능이 떨어진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.