QUICK REVIEW

[論文レビュー] MixConv: Mixed Depthwise Convolutional Kernels

Mingxing Tan, Quoc V. Le|arXiv (Cornell University)|Jul 22, 2019

Advanced Neural Network Applications参考文献 31被引用数 295

ひとこと要約

MixConvは、単一の深さ方向畳み込み内で複数のカーネルサイズを適用する混合深さ方向畳み込みを導入し、MobileNetsの精度と効率を向上させ、ニューラルアーキテクチャ探索によるMixNetsを可能にする。

ABSTRACT

Depthwise convolution is becoming increasingly popular in modern efficient ConvNets, but its kernel size is often overlooked. In this paper, we systematically study the impact of different kernel sizes, and observe that combining the benefits of multiple kernel sizes can lead to better accuracy and efficiency. Based on this observation, we propose a new mixed depthwise convolution (MixConv), which naturally mixes up multiple kernel sizes in a single convolution. As a simple drop-in replacement of vanilla depthwise convolution, our MixConv improves the accuracy and efficiency for existing MobileNets on both ImageNet classification and COCO object detection. To demonstrate the effectiveness of MixConv, we integrate it into AutoML search space and develop a new family of models, named as MixNets, which outperform previous mobile models including MobileNetV2 [20] (ImageNet top-1 accuracy +4.2%), ShuffleNetV2 [16] (+3.5%), MnasNet [26] (+1.3%), ProxylessNAS [2] (+2.2%), and FBNet [27] (+2.0%). In particular, our MixNet-L achieves a new state-of-the-art 78.9% ImageNet top-1 accuracy under typical mobile settings (<600M FLOPS). Code is at https://github.com/ tensorflow/tpu/tree/master/models/official/mnasnet/mixnet

研究の動機と目的

深さ方向畳み込みにおけるカーネルサイズの影響を動機づけ、単一カーネル設計の限界を特定する。
深さ方向畳み込みの1つの中で複数のカーネルサイズを混合するMixConvを提案する。
ImageNetとCOCOで精度と効率を改善するドロップイン置換としてのMixConvを示す。
ニューラルアーキテクチャ探索を通じてMixNetsを開発し、最先端のモバイル性能を達成する。
標準データセット上でMixNetsの転移学習効果を示す。

提案手法

MixConvを、入力チャネルをグループに分割し、各グループに異なるカーネルサイズを適用するものとして定義する。
各グループのカーネルサイズを、増加する奇数サイズ（3x3、5x5、7x7、9x9、...）に制限する。
チャネルのパーティション戦略（等分割 vs 指数分割）を検討し、拡張畳み込み（dilated）代替と比較する。
MobileNetsにおける標準の深さ方向畳み込みのドロップイン置換としてMixConvを導入する。
ニューラルアーキテクチャ探索（MnasNet風）を用いてMixNetsを導出し、ImageNetおよび転移データセットで評価する。

実験結果

リサーチクエスチョン

RQ11つの深さ方向畳み込みで複数のカーネルサイズを組み合わせることは、単一カーネル深さ方向畳み込みより精度と効率を改善するか？
RQ2モバイルモデル向けのMixConvの効果的な設計選択（グループサイズ、各グループのカーネルサイズ、チャネル分割）は何か？
RQ3FLOPS制約の下で、MixConvベースのアーキテクチャ（MixNets）はImageNetおよび転移データセットで従来のモバイルネットを上回るか？
RQ4物体検出（COCO）におけるMixConvの性能は、通常の深さ方向畳み込みと比べてどうか？
RQ5複数カーネル混合と組み合わせたとき、非常に大きなカーネルは引き続き有益か？

主な発見

モデル	タイプ	#Params	#FLOPS	Top-1	Top-5
MixNet-S	auto	4.1M	256M	75.8	92.8
MixNet-M	auto	5.0M	360M	77.0	93.3
MixNet-L	auto	7.3M	565M	78.9	94.2

MixConvは、バニラの深さ方向畳み込みのシンプルなドロップイン置換として機能し、ImageNetとCOCOのMobileNetsで精度と効率を向上させる。
複数のカーネルサイズを使用することで、非常に大きい単一カーネルに伴う精度低下を緩和し、罰則を抑えつつ大きな受容野を実現する。
NASによって発見されたMixNetsは、同等のFLOPSの下でMobileNetV2、ShuffleNetV2、MnasNet、ProxylessNAS、FBNetを上回り、MixNet-LでImageNetのTop-1 78.9%を達成。
MixNet-SとMixNet-MはCIFAR-10/100、Pets、Food-101で強力な転移学習結果を達成し、MixNet-MはResNet-50よりはるかに低いFLOPSで転移タスクの精度97.92%を達成。
指数的チャネル分割はパラメータ/FLOPSを削減しつつ精度を維持でき、ほとんどのケースで大きなカーネルMixConvと比較して拡張（dilated）変種はパフォーマンスが劣る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。