QUICK REVIEW

[論文レビュー] WoodFisher: Efficient Second-Order Approximation for Neural Network Compression

Sidak Pal Singh, Dan Alistarh|arXiv (Cornell University)|Apr 29, 2020

Advanced Neural Network Applications参考文献 48被引用数 36

ひとこと要約

WoodFisherは経験的FisherとWoodbury恒等式を用いた効率的な逆ヘッセ行列近似を導入し、二次ベースのプルーニングを可能にします。ImageNetとCIFAR10のCNNで最先端のワンショットプルーニングと競争力のある逐次プルーニングを実現します。

ABSTRACT

Second-order information, in the form of Hessian- or Inverse-Hessian-vector products, is a fundamental tool for solving optimization problems. Recently, there has been significant interest in utilizing this information in the context of deep neural networks; however, relatively little is known about the quality of existing approximations in this context. Our work examines this question, identifies issues with existing approaches, and proposes a method called WoodFisher to compute a faithful and efficient estimate of the inverse Hessian. Our main application is to neural network compression, where we build on the classic Optimal Brain Damage/Surgeon framework. We demonstrate that WoodFisher significantly outperforms popular state-of-the-art methods for one-shot pruning. Further, even when iterative, gradual pruning is considered, our method results in a gain in test accuracy over the state-of-the-art approaches, for pruning popular neural networks (like ResNet-50, MobileNetV1) trained on standard image classification datasets such as ImageNet ILSVRC. We examine how our method can be extended to take into account first-order information, as well as illustrate its ability to automatically set layer-wise pruning thresholds and perform compression in the limited-data regime. The code is available at the following link, https://github.com/IST-DASLab/WoodFisher.

研究の動機と目的

二次情報がニューラルネットワークにとって正確でスケーラブルかどうかを動機づける。
大規模モデルに適した逆ヘッセ情報を推定する効率的な手法を開発する。
Optimal Brain Damage/Surgeonフレームワーク内でニューラルネットワーク圧縮へ応用する。
最新手法を上回るワンショットと段階的プルーニングの性能向上を示す。

提案手法

ヘッセ行列を経験的Fisherで近似し、Woodbury恒等式を用いて逆Fisherの推定を反復的に更新する。
経験的Fisherを再帰的に更新する： 2108_hat_{n+1} = F_hat_n + 1/N grad(l_{n+1}) grad(l_{n+1})^T でダンピング項 λ I_d を適用する。
Woodbury更新を用いて逆行列を計算する： F_hat_{n+1}^{-1} = F_hat_n^{-1} - (F_hat_n^{-1} grad(l_{n+1}) grad(l_{n+1})^T F_hat_n^{-1}) / (N + grad(l_{n+1})^T F_hat_n^{-1} grad(l_{n+1})).
大規模モデルに対応するため、ブロック単位（チャンク化）近似を導入し、ブロックサイズ c、総パラメータ数 d のとき計算時間 O(m c d) を達成する。
プルーニング指標 ϵ_q = w_q^2 / (2 [H^{-1}]_{qq}) を定義して削除するパラメータをランキングし、レイヤー単位またはグローバルプルーニング（Joint WoodFisher vs Independent WoodFisher）を実行する。
第一階 (勾配) 項を含める拡張や、データ量が限られた状況でのプルーニングと自動レイヤー-wise疎さ閾値の議論。

実験結果

リサーチクエスチョン

RQ1二次近似（逆ヘッセ情報）を用いた手法は現代のニューラルネットワークにとって正確でスケーラブルか？
RQ2経験的Fisherは大規模プルーニングタスクにおけるヘッセの実用的で忠実な代替となるか？
RQ3WoodFisherベースのプルーニングはワンショット・段階的プルーニングで勾配ベースや対角Fisherのベースラインより性能を上回るか？
RQ4ジョイント（グローバル）スパーシティターゲティングはレイヤー-wiseプルーニングより圧縮性能を向上させるか？
RQ5WoodFisherは限定データシナリオへ拡張し、第一階情報を組み込んで完全収束前にプルーニングすることができるか？

主な発見

WoodFisherはResNet-20/CIFAR-10およびResNet-50/ImageNetで、マグニチュードプルーニングおよび対角Fisherベースのベースラインよりワンショットプルーニング性能が大幅に向上する。
Joint WoodFisher（グローバルスパーシティターゲティング）は、特に高いスパース性で独立（レイヤー-wise）WoodFisherよりしばしば上回る。
チャンク化ブロック近似を用いると実用的な効率を維持しつつプルーニング品質を保ち、ブロックサイズが大きいほど精度が向上する。
WoodFisherは段階的プルーニングの状況で最先端のプルーニング手法を上回り、再訓練と併用することで上位手法に匹敵する、またはそれを超えることがある。
経験的な証拠はWoodFisherにより構築された局所二次モデルがプルーニング方向に沿った損失変化を密接に予測することを示しており、近似の質を支持している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。