QUICK REVIEW

[論文レビュー] Channel Gating Neural Networks

Weizhe Hua, Yuan Zhou|arXiv (Cornell University)|May 29, 2018

Neural Networks and Applications参考文献 31被引用数 98

ひとこと要約

チャネルゲーティングは、層ごとにベースパスと条件付きパスを設け、情報量の少ない入力チャネルの計算をスキップする動的で細粒度の剪定機構をCNNに導入します。これにより、精度の損失を最小限に抑えつつFLOPを大幅に削減し、ハードウェア寄りの実装が可能になります。

ABSTRACT

This paper introduces channel gating, a dynamic, fine-grained, and hardware-efficient pruning scheme to reduce the computation cost for convolutional neural networks (CNNs). Channel gating identifies regions in the features that contribute less to the classification result, and skips the computation on a subset of the input channels for these ineffective regions. Unlike static network pruning, channel gating optimizes CNN inference at run-time by exploiting input-specific characteristics, which allows substantially reducing the compute cost with almost no accuracy loss. We experimentally show that applying channel gating in state-of-the-art networks achieves 2.7-8.0$ imes$ reduction in floating-point operations (FLOPs) and 2.0-4.4$ imes$ reduction in off-chip memory accesses with a minimal accuracy loss on CIFAR-10. Combining our method with knowledge distillation reduces the compute cost of ResNet-18 by 2.6$ imes$ without accuracy drop on ImageNet. We further demonstrate that channel gating can be realized in hardware efficiently. Our approach exhibits sparsity patterns that are well-suited to dense systolic arrays with minimal additional hardware. We have designed an accelerator for channel gating networks, which can be implemented using either FPGAs or ASICs. Running a quantized ResNet-18 model for ImageNet, our accelerator achieves an encouraging speedup of 2.4$ imes$ on average, with a theoretical FLOP reduction of 2.8$ imes$.

研究の動機と目的

CNN推論コストを削減するための動的で細粒度の剪定を動機づけ、定量化する。
1回のパスでエンドツーエンドに活性化ごとのゲーティング方針を学習する CGNet を提案する。
重み更新の偏りを防ぎ、精度を維持するためのチャネルグルーピングを導入する。
CGNet を用いたハードウェア適性と加速器上での潜在的なスピードアップを実証する。
アーキテクチャ設計空間と訓練手法（KDを含む）を探る。

提案手法

CNN層の入力をベース（x_p）と残り（x_r）のパスに分割し、それぞれに対応する重み（W_p、W_r）を割り当てる。
x_pと W_p を用いて部分和を計算し、出力各アクティベーションごとに条件付きパスを活性化するかを決定するゲート s を用いる。
ゲート関数は出力チャネルごとの学習可能な閾値 Δ と活性化に特異な形（例：ReLU）を用いて、アクティベーションをベースパスまたは条件付きパスのいずれかにルーティングする。
チャネルグルーピングを採用して、チャネル選択の偏りを防ぎ、重みに対する更新頻度を均等にする；オプションでチャネルシャッフルを適用してグループ間の情報流を改善する。
微分可能なゲート近似、スパース性誘導（目標閾値 T）および任意の知識蒸留（KD）を用いて、CGNetをエンドツーエンドで訓練する。
推論効率のために、チャネル単位のゲートを追加して重みメモリアクセスを削減し、バッチ正規化とゲートを統合する。

実験結果

リサーチクエスチョン

RQ1さまざまなCNNアーキテクチャにおいて、チャネルゲーティングは静的剪定よりも高いFLOP削減を達成しつつ、精度を維持または改善できるか？
RQ2出力ごとに閾値を学習するゲーティングが、ランタイムで有効でないアクティベーションを効果的に識別してスキップするか？
RQ3チャネルグルーピングは訓練の安定性と精度にどう影響するか、重み更新の偏りを排除できるか？
RQ4チャネルゲーティングのメモリおよびハードウェアへの影響は何か、密なシーステッド配列風のアクセラレータ上で効率的に実現できるか？
RQ5CGNetで同じまたはより高いFLOP削減で知識蒸留は精度をさらに向上させるか？

主な発見

CGNetはResNet-18、VGG、ビナリ化VGG、MobileNetの変種で、CIFAR-10において最小限の精度損失とともに計算を2.7–8.0×削減します。
チャネルゲーティングはCIFAR-10の実験でオフチップメモリアクセスも2.0–4.4×削減します。
KDを用いると、ImageNet の ResNet-18 は精度損失なしで2.6×の計算削減を達成し（いくつかの設定で精度が向上）。
ハードウェア評価では、CGNetアクセラレータがベースラインに比べて平均で2.4×のスピードアップを達成し、理論的には2.8×のFLOP削減を提供；エネルギー効率はCPUおよびGPUのベースラインと比較して劇的に向上します。
チャネルグルーピングは重み更新の偏りを低減し、チャネルシャッフルと組み合わせるとグループ間の情報流と精度を改善します。
チャネル単位のゲーティングはさらに重みアクセスを削減し、メモリトラフィックを最大で4.4×削減しつつ、精度への影響は控えめです。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。