[論文レビュー] CondConv: Conditionally Parameterized Convolutions for Efficient Inference
CondConvは、エキスパート核の加重結合として各例ごとの畳込み核を学習し、推論コストを最小限に抑えつつ容量を拡張し、CNNアーキテクチャ全体の性能を向上させる; CondConv-EfficientNet-B0を用いてImageNetでトップ1 78.3%を413M MADDsで達成。
Convolutional layers are one of the basic building blocks of modern deep neural networks. One fundamental assumption is that convolutional kernels should be shared for all examples in a dataset. We propose conditionally parameterized convolutions (CondConv), which learn specialized convolutional kernels for each example. Replacing normal convolutions with CondConv enables us to increase the size and capacity of a network, while maintaining efficient inference. We demonstrate that scaling networks with CondConv improves the performance and inference cost trade-off of several existing convolutional neural network architectures on both classification and detection tasks. On ImageNet classification, our CondConv approach applied to EfficientNet-B0 achieves state-of-the-art performance of 78.3% accuracy with only 413M multiply-adds. Code and checkpoints for the CondConv Tensorflow layer and CondConv-EfficientNet models are available at: https://github.com/tensorflow/tpu/tree/master/models/official/efficientnet/condconv.
研究の動機と目的
- カーネルを入力依存にすることで、計算量を比例的に増やさずにモデル容量を増やす動機付け。
- Conditionally Parameterized Convolutions (CondConv)を導入し、各例ごとにエキスパート核を混ぜ合わせる。
- CondConvが、小さな推論コスト増でさまざまなアーキテクチャにおいて性能向上をもたらすことを示す。
- ImageNet分類とCOCO物体検出におけるCondConvの有効性を示す。
提案手法
- 畳込み核を各例ごとの n エキスパート核の線形結合としてパラメータ化する: Output(x)=σ((α1W1+...+αnWn)*x)。
- routing weights αiを入力の関数として計算: r(x)=Sigmoid(GlobalAveragePool(x)·R)。
- CondConvを、コストの高い1つの畳み込みの後、エキスパート加重結合を適用したものとして扱い、コストを最小限に抑えつつ容量を向上させる。
- 標準の畳み込み層を置換し、ブロック間でルーティング重みを共有することもでき、既存のCNNでCondConvを訓練する。
- 過学習を抑制するために正則化技術を任意に適用(FC入力のドロップアウト、AutoAugment、Mixup)
実験結果
リサーチクエスチョン
- RQ1CondConvは、複数のバックボーンアーキテクチャに渡って静的畳み込みより精度を改善するか?
- RQ2レイヤーごとのエキスパート数を増やすと、精度と推論コストのトレードオフはどうなるか?
- RQ3最良の利得を得るためにはネットワークのどこにCondConv層を配置すべきか?
- RQ4学習されたルーティング重みの性質と、クラス間の解釈可能性はどうか?
- RQ5CondConvはSSDを使用したCOCOで物体検出性能にどのように影響するか?
主な発見
| Model | Baseline MADDs (x10^6) | Baseline Top-1 (%) | CondConv MADDs (x10^6) | CondConv Top-1 (%) |
|---|---|---|---|---|
| MobileNetV1 (1.0x) | 567 | 71.9 | 600 | 73.7 |
| MobileNetV2 (1.0x) | 301 | 71.6 | 329 | 74.6 |
| MnasNet-A1 | 312 | 74.9 | 325 | 76.2 |
| ResNet-50 | 4093 | 77.7 | 4213 | 78.6 |
| EfficientNet-B0 | 391 | 77.2 | 413 | 78.3 |
- CondConvのエキスパート数を増やすと、推論コストの増加は控えめで精度が向上する。
- CondConvはMobileNetV1, MobileNetV2, MnasNet-A1, ResNet-50, EfficientNet-B0のベースラインにおいてImageNet Top-1精度を向上させる。
- CondConvは413M multiply-addsでEfficientNet-B0で78.3% Top-1を達成し、同等コストで静的フロンティアスケーリングを上回る。
- CondConvを組み込んだMobileNetV1とSSDベースの検出器は、同等または低い推論コストでmAPを改善。
- ルーティング重みは深い層でクラス特異的になり、双峰分布を示し、専門家の特化を示唆。
- CondConv-EfficientNet-B0-depthは614M MADDsで79.5%の精度を達成し、700M MADDsの基準EfficientNet-B1の79.2%を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。