Skip to main content
QUICK REVIEW

[論文レビュー] Design of Efficient Convolutional Layers using Single Intra-channel Convolution, Topological Subdivisioning and Spatial "Bottleneck" Structure

Min Wang, Baoyuan Liu|arXiv (Cornell University)|Aug 15, 2016
Advanced Antenna and Metasurface Technologies被引用数 31
ひとこと要約

本論文は、1つの入力チャネルごとに1つのフィルタを適用する単一チャネル内畳み込み(SIC)を用いて空間的およびチャネル別演算を分離することで、計算の冗長性を低減する新しい畳み込み層設計を提案する。さらに、トポロジカルな分割を用いて接続を構造的スパース化し、空間的「ボトルネック」構造を導入して解像度を保持しながら計算量を削減する。この手法により、ResNet-50 や ResNet-101 よりも 4.5× から 6.5× 低い FLOPs を達成しつつ、同等の精度を維持する。

ABSTRACT

Deep convolutional neural networks achieve remarkable visual recognition performance, at the cost of high computational complexity. In this paper, we have a new design of efficient convolutional layers based on three schemes. The 3D convolution operation in a convolutional layer can be considered as performing spatial convolution in each channel and linear projection across channels simultaneously. By unravelling them and arranging the spatial convolution sequentially, the proposed layer is composed of a single intra-channel convolution, of which the computation is negligible, and a linear channel projection. A topological subdivisioning is adopted to reduce the connection between the input channels and output channels. Additionally, we also introduce a spatial "bottleneck" structure that utilizes a convolution-projection-deconvolution pipeline to take advantage of the correlation between adjacent pixels in the input. Our experiments demonstrate that the proposed layers remarkably outperform the standard convolutional layers with regard to accuracy/complexity ratio. Our models achieve similar accuracy to VGG, ResNet-50, ResNet-101 while requiring 42, 4.5, 6.5 times less computation respectively.

研究の動機と目的

  • 標準的な畳み込み層の計算複雑性を、精度を損なわず低減すること。
  • 空間的およびチャネル別演算を1つの冗長な計算で統合する従来の3D畳み込みの非効率性を是正すること。
  • 深層学習における計算とモデル性能の最適化を図るアーキテクチャ的革新を探索すること。
  • 畳み込み層の基本的設計を再考することで、効率的な学習および推論を可能にすること。
  • モデルの微調整や分解ベースの手法とは直交する、包括的な効率的層設計フレームワークを提供すること。

提案手法

  • 標準的な3D畳み込みを、順次実行される2Dのチャネル内畳み込みと線形チャネルプロジェクションに分解することで、冗長性を低減する。
  • 1つの入力チャネルごとに1つのフィルタを適用する単一チャネル内畳み込み(SIC)層を導入し、計算量を最小限に抑えつつ、逐次処理を可能にする。
  • トポロジカルな分割を適用して、テンソル化されたレイアウトにおいて各出力チャネルが近隣の入力チャネルにのみ接続するようにすることで、構造的スパースな接続パターンを生成する。
  • ストライド付き畳み込み、線形プロジェクション、デコンボリューションを用いた空間的「ボトルネック」構造を採用し、一時的に空間解像度を低下させることで、チャネルプロジェクションのコストを低減する。
  • SIC、トポロジカルな分割、空間的ボトルネックを統合した包括的な効率的層設計を構築し、FLOPsを削減しながら高い精度を維持する。
  • トポロジカルな分割から得られる規則的なスパース構造を活用し、不規則なスパースカーネルとは異なり、GPU上で効率的な実装を可能にする。

実験結果

リサーチクエスチョン

  • RQ1畳み込み層における空間的およびチャネル別演算の分離が、計算複雑性を顕著に低減できるか?
  • RQ2トポロジカルな分割による構造的スパース性が、畳み込み層の効率性と精度のトレードオフに与える影響はいかほどか?
  • RQ3空間的「ボトルネック」構造は、深層ネットワークにおける計算量を削減しつつ、特徴の解像度をどの程度維持できるか?
  • RQ4SIC、トポロジカルな分割、空間的ボトルネックの組み合わせにより、標準CNNと比較して精度の低下を伴わず優れた効率性を達成できるか?
  • RQ5微調整や事前学習モデルのプルーニング・分解に基づく手法ではなく、根本から効率的な畳み込み層を設計することは可能か?

主な発見

  • 提案モデルは、VGGと同等のトップ1精度(27.07%)を維持しながら、FLOPsを42倍低減した(VGGの27.07%と同一)。
  • ResNet-50では、FLOPsを4.5倍(3800Mから845M)低減し、トップ1誤差の増加はわずか0.26%(24.7%から24.76%)。
  • ResNet-101では、FLOPsを6.5倍(7600Mから1172M)低減し、トップ1誤差の増加は無視できるほど小さい(23.6%から23.99%)。
  • SIC層で学習されたカーネルは、標準的な畳み込み層と比較してより高い構造的規則性を示しており、強い暗黙の正則化効果が示唆される。
  • トポロジカルな分割フレームワークは、その規則的なスパース構造のおかげで、不規則なスパース畳み込み手法とは異なり、効率的な実装を可能にする。
  • 空間的「ボトルネック」構造は、デコンボリューションによる解像度の回復を活用することで、線形チャネルプロジェクションの計算コストを効果的に低減した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。