Skip to main content
QUICK REVIEW

[論文レビュー] Why is the State of Neural Network Pruning so Confusing? On the Fairness, Comparison Setup, and Trainability in Network Pruning

Huan Wang, Can Qin|arXiv (Cornell University)|Jan 12, 2023
Stochastic Gradient Optimization Techniques被引用数 14
ひとこと要約

本論文は、比較設定の公正さと訓練可能性の見落としを検討することで、剪定ベンチマークが混乱する理由を分析し、ファインチューニングの学習率が報告される利得の大部分を占めること、そしてある程度公正なベンチマーク下では剪定が必ずしも必要でないことを示す。

ABSTRACT

The state of neural network pruning has been noticed to be unclear and even confusing for a while, largely due to "a lack of standardized benchmarks and metrics" [3]. To standardize benchmarks, first, we need to answer: what kind of comparison setup is considered fair? This basic yet crucial question has barely been clarified in the community, unfortunately. Meanwhile, we observe several papers have used (severely) sub-optimal hyper-parameters in pruning experiments, while the reason behind them is also elusive. These sub-optimal hyper-parameters further exacerbate the distorted benchmarks, rendering the state of neural network pruning even more obscure. Two mysteries in pruning represent such a confusing status: the performance-boosting effect of a larger finetuning learning rate, and the no-value argument of inheriting pretrained weights in filter pruning. In this work, we attempt to explain the confusing state of network pruning by demystifying the two mysteries. Specifically, (1) we first clarify the fairness principle in pruning experiments and summarize the widely-used comparison setups; (2) then we unveil the two pruning mysteries and point out the central role of network trainability, which has not been well recognized so far; (3) finally, we conclude the paper and give some concrete suggestions regarding how to calibrate the pruning benchmarks in the future. Code: https://github.com/mingsun-tse/why-the-state-of-pruning-so-confusing.

研究の動機と目的

  • ニューラルネットワークの剪定実験における公正な比較とは何かを明確にする。
  • 文献で用いられる主要な剪定比較設定を調査し、形式化する。
  • 剪定の2つの『ミステリー』(M1: ファインチューニングLRの影響、M2: 剪定の価値)を解明し、それらをネットワークのトレーニング性と結びつける。
  • トレーニング性が、異なるベンチマーク下で観察される性能差を説明することを強調する。
  • 将来の剪定ベンチマークを調整・標準化するための具体的な推奨事項を提示する。

提案手法

  • 剪定実験設定を公正性主導のフレームワークに整理・分類する。
  • 異なるファインチューニング学習率スケジュールが剪定性能に与える影響を体系的に分析する。
  • 厳密に制御された設定(S4.2、SX-A、SX-Bを含む)の下で、剪定とスクラッチ訓練を経験的に比較する。
  • ImageNet/ImageNet100でResNet34/ResNet50を用いて、特にファインチューニングLRの影響を再現し、ハイパーパラメータの影響を定量化する。
  • 表形式の結果を提示する(例:L1-norm剪定 vs スクラッチ訓練)を通じて、ベンチマークの選択が結論をどう変えるかを示す。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークの剪定実験における公正な比較設定とは何か。
  • RQ2異なるファインチューニング学習率スケジュールは、剪定手法の知覚的有効性にどう影響するか。
  • RQ3フィルター剪定において事前学習済み重みを引き継ぐことは、公正な再訓練コストを考慮した場合実際に価値があるのか。
  • RQ4さまざまなベンチマーク設定(S2、S3.x、S4.x、SX)は、剪定手法とスクラッチ訓練の結論にどう影響するか。

主な発見

  • より大きなファインチューニング学習率スケジュールは剪定性能を著しく向上させ、同じ再訓練設定下で、より高度な剪定手法と対等かそれを上回る可能性がある(M1)。
  • 剪定の価値の認識(M2)は比較設定に依存する。より大きなファインチューニングLRを許す厳格な公正設定の下では、価値なしの主張は弱まるか消える。
  • ネットワークのトレーニング性が剪定結果に中心的な役割を果たす。トレーニング性を考慮することで、ファインチューニングが適切に設定されていれば、単純なL1ノルム剪定が現代的手法と同等に達する理由が説明される。
  • 分野は、一貫性のないベンチマーキング慣行(ベースモデルの不一致、ファインチューニングエポック、LRスケジュールの違い)に悩まされており、混乱を招き進歩を妨げている。
  • 厳格な公正原則(例:S4.2、SX-A、SX-B)は、ファインチューニングと剪定コストを制御することで、より信頼性の高い比較を生む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。