QUICK REVIEW

[論文レビュー] Data-Driven Sparse Structure Selection for Deep Neural Networks

Zehao Huang, Naiyan Wang|arXiv (Cornell University)|Jul 5, 2017

Advanced Neural Network Applications参考文献 42被引用数 32

ひとこと要約

本稿では、ニューロン、グループ、またはリサイダブルブロックに対して学習可能なスケーリング係数を導入し、スパarsity正則化を適用してこれらの係数をゼロに駆り、自動的かつハードウェアに優しい構造のプルーニングを可能にする、データ駆動型でエンドツーエンドのフレームワーク、スパース構造選択（SSS）を提案する。この手法は、修正された確率的加速近位勾配（APG）最適化法を用い、反復的微調整を必要とせず、CIFAR-10、CIFAR-100、ImageNetで最先端の精度を達成するとともに、FLOPを大幅に削減する。

ABSTRACT

Deep convolutional neural networks have liberated its extraordinary power on various tasks. However, it is still very challenging to deploy state-of-the-art models into real-world applications due to their high computational complexity. How can we design a compact and effective network without massive experiments and expert knowledge? In this paper, we propose a simple and effective framework to learn and prune deep models in an end-to-end manner. In our framework, a new type of parameter -- scaling factor is first introduced to scale the outputs of specific structures, such as neurons, groups or residual blocks. Then we add sparsity regularizations on these factors, and solve this optimization problem by a modified stochastic Accelerated Proximal Gradient (APG) method. By forcing some of the factors to zero, we can safely remove the corresponding structures, thus prune the unimportant parts of a CNN. Comparing with other structure selection methods that may need thousands of trials or iterative fine-tuning, our method is trained fully end-to-end in one training pass without bells and whistles. We evaluate our method, Sparse Structure Selection with several state-of-the-art CNNs, and demonstrate very promising results with adaptive depth and width selection.

研究の動機と目的

自己走行車など遅延制限の厳しいリアルワールド応用に、高複雑度のディーブニューラルネットワークを実装する課題に対処すること。
モデル圧縮における手動でのアーキテクチャ設計や反復的プルーニング・微調整の必要性を排除すること。
タスクの難易度とハードウェア制約に基づいて、自動的かつ適応的にネットワークの深さと幅を選択できること。
標準GPU上で推論を高速化する、ハードウェア効率の良い構造的スパarsityを実現すること。
ネットワーク重みと構造的スパarsityを同時に最適化する統一的でエンドツーエンドのトレーニングおよびプルーニングフレームワークを構築すること。

提案手法

特定のネットワーク構造（例：ニューロン、グループ、リサイダブルブロック）の出力を調整する学習可能なスケーリング係数を導入し、構造的重要性に対する微分可能制御を可能にする。
スケーリング係数にL1型のスパarsityペナルティを追加することで、ネットワークのトレーニングとプルーニングを、統合されたスパース正則化最適化問題として再定式化する。
安定した収束と効率的なスパarsity誘導を保証するため、修正された確率的加速近位勾配（APG）法を採用して最適化を実行する。
ゼロにされたスケーリング係数を基準として、対応するネットワーク構造を恒久的に削除し、圧縮され、コンactなモデルを得る。
複数段階の微調整やヒューリスティックなプルーニング戦略を回避するため、1回のトレーニングパスでフレームワークをエンドツーエンドに適用する。
ニューロン、リサイダブルブロック、チャネルグループの適応的プルーニングをサポートし、動的かつ深さと幅の調整を可能にする。

実験結果

リサーチクエスチョン

RQ1トレーニング中に人為的なアーキテクチャ設計や反復的チューニングなしに、ディーブニューラルネットワークが最適な構造（深さと幅）を自動で学習できるか？
RQ2微分可能なパラメータを介して構造的スパarsityを誘導でき、エンドツーエンドのトレーニングとハードウェア加速推論を可能にできるか？
RQ3APGを用いたネットワーク重みと構造的スパarsityの統合最適化は、ヒューリスティックまたは反復的プルーニング手法に比べ、精度と効率の面で優れているか？
RQ4提案手法は、小規模（CIFAR）および大規模（ImageNet）ベンチマークの両方で最先端のモデル圧縮を達成できるか？
RQ5最適化手法の選択（例：APG 対 SGD 対 ISTA）が収束性および最終的なモデル性能に与える影響はいかほどか？

主な発見

我々のResNet-32モデルはImageNetで25.82％のトップ-1誤差を達成し、[13]のプルーニング済みResNet-50（27.70％）を14％少ないFLOPsで上回った。
我々のResNet-41はImageNetで24.56％のトップ-1誤差を達成し、[48]のプルーニング済みResNet-101モデルを0.88％上回り、FLOP予算も低く抑えられた。
CIFAR-100では、ThiNet やチャネルプルーニングを含む先行研究の最先端手法よりも低い誤差率を達成し、FLOP効率性も優れていた。
APGはISTAやSGDに比べ、安定した収束と優れた性能を示し、より高速かつ信頼性の高いスパarsity誘導を実現した。
プルーニング済みのResNeXt-38モデルは、14％少ないFLOPsでDenseNet-121よりも0.2％低いトップ-5誤差を達成し、効率と精度のトレードオフの優れた性能を示した。
このフレームワークにより、タスクの複雑さとハードウェア制約に基づいて、手動設計や複数回の再トレーニングサイクルを必要とせずに、自動的かつ適応的な深さと幅の選択が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。