[論文レビュー] More is Less: A More Complicated Network with Less Inference Complexity
本稿では、各元の畳み込み層に軽量で低コストな協調層(LCCL)を追加することで、畳み込みニューラルネットワーク(CNN)の推論を高速化する、新しいアーキテクチャであるLow-Cost Collaborative Networks(LCCN)を提案する。LCCLはReLUを用いてゼロ活性化領域を予測し、主な畳み込み層での計算を回避するスキップ接続を可能にする。CIFAR-10、CIFAR-100、ImageNetで平均32%の高速化を達成し、精度の低下は無視できる程度である。
In this paper, we present a novel and general network structure towards accelerating the inference process of convolutional neural networks, which is more complicated in network structure yet with less inference complexity. The core idea is to equip each original convolutional layer with another low-cost collaborative layer (LCCL), and the element-wise multiplication of the ReLU outputs of these two parallel layers produces the layer-wise output. The combined layer is potentially more discriminative than the original convolutional layer, and its inference is faster for two reasons: 1) the zero cells of the LCCL feature maps will remain zero after element-wise multiplication, and thus it is safe to skip the calculation of the corresponding high-cost convolution in the original convolutional layer, 2) LCCL is very fast if it is implemented as a 1*1 convolution or only a single filter shared by all channels. Extensive experiments on the CIFAR-10, CIFAR-100 and ILSCRC-2012 benchmarks show that our proposed network structure can accelerate the inference process by 32\% on average with negligible performance drop.
研究の動機と目的
- リソース制約のあるデバイスにおける深層CNNの高い推論コストを軽減すること。
- ReLU活性化特徴マップに内在するスパarsityを活用して効率的な推論を実現すること。
- 再訓練を必要とせず、既存のCNNを高速化できる汎用的でプラグイン可能なアーキテクチャを設計すること。
- 推論中の計算複雑度を顕著に低減しつつも、高いモデル精度を維持すること。
提案手法
- 各元の畳み込み層に、低コストな協調層(LCCL)を追加する。LCCLは1×1畳み込みまたはチャネル全体に共有された単一フィルタとして実装される。
- 元の畳み込み層のReLU活性化出力とLCCL出力の要素ごとの積をとることで最終出力を得る。
- LCCLのReLU活性化出力を用いて、主な畳み込み層の応答におけるゼロ値位置を予測し、計算をスキップ可能にする。
- バッチ正規化(BN)とReLUを活用して、トレーニング中にスパarsityを向上させつつ性能を維持する。
- 標準的なSGDと誤差逆伝播を用いてネットワーク全体を訓練し、LCCLを学習可能な軽量補助ストリームとして扱う。
- OpenBLASを用いたCaffeで実装し、CPUオンリのプラットフォームでも現実的な高速化測定が可能になるようにする。
実験結果
リサーチクエスチョン
- RQ1軽量な補助層を用いて畳み込み層内のゼロ活性化計算を予測・スキップできるか?
- RQ2提案されたLCCNアーキテクチャは、モデル精度を劣化させずに顕著な推論高速化を達成できるか?
- RQ3LCCLが導入するデータ依存スパarsityは、固定閾値法や構造的スパarsity手法と比較して、効率性と性能面で優れているか?
- RQ4LCCNは異なるネットワークアーキテクチャやタスクに一般化可能か?
主な発見
- LCCNはCIFAR-10、CIFAR-100、ImageNet-12ベンチマークで平均32%の高速化を達成し、精度の低下は最小限である。
- ResNet-110では34%の高速化を達成し、他の高速化技術と比較しても速度と精度の両面で優れている。
- CPU上での実際の高速化(ResNet-18で20.5%、ResNet-34で18.1%)は、理論的推定値より低く、BLASライブラリの非効率性とデータ再構築オーバーヘッドが要因である。
- 可視化の結果、LCCLは元のネットワークよりも明確にフォアグラウンドオブジェクトを強調しており、明示的なアテンション機構なしで類似した注視行動を示している。
- 本手法は量子化やプルーニングなどの他の高速化技術とも互換性があり、さらなる性能向上が可能である。
- LCCNはプラットフォームに依存せず、GPUやFPGAに対しても微調整のみで適用可能である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。