QUICK REVIEW

[論文レビュー] Batch-Shaping for Learning Conditional Channel Gated Networks

Babak Ehteshami Bejnordi, Tijmen Blankevoort|arXiv (Cornell University)|Jul 15, 2019

Advanced Neural Network Applications参考文献 43被引用数 38

ひとこと要約

要約: 本論文は ResNet ベースのアーキテクチャに対할細粒度チャネルゲーティングと、特徴量の周辺分布を事前分布に合わせるバ batch-shaping 損失を導入し、条件付き計算をより高い精度で実行可能にするとともに、 CIFAR-10、ImageNet、Cityscapes で実証します。

ABSTRACT

We present a method that trains large capacity neural networks with significantly improved accuracy and lower dynamic computational cost. We achieve this by gating the deep-learning architecture on a fine-grained-level. Individual convolutional maps are turned on/off conditionally on features in the network. To achieve this, we introduce a new residual block architecture that gates convolutional channels in a fine-grained manner. We also introduce a generally applicable tool $batch$-$shaping$ that matches the marginal aggregate posteriors of features in a neural network to a pre-specified prior distribution. We use this novel technique to force gates to be more conditional on the data. We present results on CIFAR-10 and ImageNet datasets for image classification, and Cityscapes for semantic segmentation. Our results show that our method can slim down large architectures conditionally, such that the average computational cost on the data is on par with a smaller architecture, but with higher accuracy. In particular, on ImageNet, our ResNet50 and ResNet34 gated networks obtain 74.60% and 72.55% top-1 accuracy compared to the 69.76% accuracy of the baseline ResNet18 model, for similar complexity. We also show that the resulting networks automatically learn to use more features for difficult examples and fewer features for simple examples.

研究の動機と目的

推論時の不要な特徴計算を減らすための条件付き計算の動機付け。
残差ブロック内での細粒度チャネルゲーティング機構を提案し、畳み込みチャネルを選択的に活性化する。
バッチ形状付けを導入して特徴分布を選択された事前分布に合わせ、データ条件付きゲートを促進する。
L0風のスパース性損失と組み合わせてスパース性を制御し、精度と計算量のトレードオフを調整する。

提案手法

ゲーティングベクトル G(x_l) が最初の畳み込みの後と二番目の畳み込みの前の中間活性化に乗算されるゲーティング付き ResNet ブロックを導入する。
出力ゲート g_c は、チャネルごとのグローバル平均プーリングに続く小さな2層の全結合ネットワークと、連続的微分可能なビニング決定のための Gumbel-Softmax/BinConcrete リラクゼーションを用いる軽量ゲーティングモジュールによって生成される。
バッチ形状損失をクラムアル・フォン・ミーゼス基準に基づいて、ゲート活性化の周辺事後分布を選択された事前分布（例: Beta 分布）に一致させ、条件性を促進する。
ゲートに対して L0-様のスパース性損失を適用して全体のゲーティングを正規化し、活性チャネルの数を制御する。能力喪失を回避するために遅延導入を行う。
CIFAR-10、ImageNet、Cityscapes でエンドツーエンド訓練を行い、バッチ形状付けを先に、次にスパシティを行うカリキュラムおよび異なる λ、γ でトレードオフを探索する。

実験結果

リサーチクエスチョン

RQ1細粒度のチャネルレベルのゲーティングは、ブロック全体でのゲーティングやネットワーク剪定アプローチよりも良い精度-計算量のトレードオフを提供できるか。
RQ2バッチ形状付けはゲートを入力に対してより条件的に誘導するか、またこれが精度と MAC の節約にどう影響するか。
RQ3大規模データセットにおいてバッチ形状付けと L0-風スパース性損失を組み合わせた場合の影響は何か。
RQ4ゲーティングネットワークは既存の条件付き計算手法（ConvNet-AIG、SkipNet、動的チャネル剪定）と比較して、同程度の計算量でどの程度の精度を達成するか。

主な発見

Model	GPU (ms)	CPU (ms)	Params (total)	MACs (full)	Top-1 Acc
ResNet18	0.46 ± 1.0e-5	88.7 ± 8.6e-4	11.69M	1.81G	0.697
ConvnetAIG34	0.71 ± 4.3e-5	123.7 ± 0.18	19.04M * (21.85M)	2.73G * (3.66G)	0.722
ResNet34-BAS	0.51 ± 5.5e-5	86.25 ± 0.22	9.15M * (21.91M)	1.67G * (3.68G)	0.728
ResNet34	0.92 ± 3.0e-5	149.9 ± 6.5e-4	21.79M	3.66G	0.733
ConvnetAIG34 (Full)	0.89 ± 5.8e-5	137.75 ± 0.24	21.44M * (21.85M)	3.52G * (3.66G)	0.732
ResNet34-BAS (Full)	0.73 ± 1.1e-4	111.1 ± 0.36	17.77M * (21.91M)	2.92G * (3.68G)	0.740
ResNet50	1.75 ± 3.0e-5	184.05 ± 1.8e-4	25.55M	4.09G	0.761
ConvnetAIG50	1.27 ± 4.2e-4	142.19 ± 0.09	21.97M * (26.56M)	3.09G * (4.09G)	0.757
ResNet50-BAS	1.20 ± 3.4e-4	139.82 ± 0.757	15.31M * (26.72M)	2.07G * (4.11G)	0.757

ImageNet では、ResNet50-BAS および ResNet34-BAS が、ResNet18 ベースライン（0.697）と同程度の計算量でトップ1 精度 74.60% および 72.55% を達成し、条件付き計算による精度向上を実証。
バッチ形状付けはゲートをデータ依存性の高い方向へ導く；バッチ形状付けと L0風スパース性を組み合わせたモデルは、ベースラインと比較して同等または低い MAC でより高い精度を達成。
ゲーティング ResNet 系は CIFAR-10 および ImageNet の同程度の精度コスト点で、ConvNet-AIG および ConvNet-FBS を一貫して上回る。
Cityscapes のセマンティックセグメンテーションでは、PSPNet がゲーティングを用いて IoU 0.719、ピクセル精度 0.935 を、元の PSPNet の MAC の 76.3% で達成し、ImageNet で事前訓練した場合（IoU 0.747、acc 0.948、MAC 95%）で改善。
ゲートは常時オン、条件付きオン、常時オフのカテゴリに分布し、BAS 変種は容量の利用効率を向上させるために完全なオフより条件付きスパース性を優先。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。