[論文レビュー] Comparing Rewinding and Fine-tuning in Neural Network Pruning
本論文は、剪定後の再訓練技法を3つ—ファインチューニング、ウェイトリワインディング、学習率リワインディング—と比較し、リワインディング手法がネットワークとデータセット全体でファインチューニングより優れていることを示す。学習率リワインディングはしばしば最良の性能を発揮し、単純でネットワークに依存しない剪定アルゴリズムを可能にする。
Many neural network pruning algorithms proceed in three steps: train the network to completion, remove unwanted structure to compress the network, and retrain the remaining structure to recover lost accuracy. The standard retraining technique, fine-tuning, trains the unpruned weights from their final trained values using a small fixed learning rate. In this paper, we compare fine-tuning to alternative retraining techniques. Weight rewinding (as proposed by Frankle et al., (2019)), rewinds unpruned weights to their values from earlier in training and retrains them from there using the original training schedule. Learning rate rewinding (which we propose) trains the unpruned weights from their final values using the same learning rate schedule as weight rewinding. Both rewinding techniques outperform fine-tuning, forming the basis of a network-agnostic pruning algorithm that matches the accuracy and compression ratios of several more network-specific state-of-the-art techniques.
研究の動機と目的
- 剪定後に精度を回復させるため、パラメータを削除して再訓練する剪定手法を動機づける。
- ファインチューニング、ウェイトリワインディング、学習率リワインディングの3つの再訓練技法を評価する。
- 圧縮と探索コストを考慮したとき、どの再訓練手法が最も高い精度をもたらすかを決定する。
- 精度とパラメータ数の最先端のトレードオフを達成する、単純でネットワークに依存しない剪定アルゴリズムを提案する。
提案手法
- 再訓練手法を定義する:ファインチューニングは最終重みと固定された小さな学習率を用いる。
- ウェイトリワインディングを以前の学習点へ定義し、それに応じて学習率スケジュールを巻き戻す。
- 学習率リワインディングを、最終的な重みを保ちながら直近の t エポックの学習率スケジュールを再利用するように定義する。
- 大きさに基づく剪定を用いる(非構造の場合はグローバル、構造化の場合は層ごとの L1)を用いて疎さを得る。
- 複数のネットワークとデータセット(CIFAR-10、ImageNet、WMT16 EN-DE)に対して、ワンショットおよび反復剪定を評価する。
- 再訓練手法間での精度、パラメータ効率、探索コストを比較する。
実験結果
リサーチクエスチョン
- RQ1剪定後の再訓練手法として、ウェイトリワインディングと学習率リワインディングはファインチューニングを上回るか?
- RQ2再訓練手法は、ネットワークとデータセット間で精度およびパラメータ効率の点でどのように比較されるか?
- RQ3リワインディングに基づくネットワーク非依存の剪定アルゴリズムは、広範なハイパーパラメータ探索なしに最先端のトレードオフを達成できるか?
- RQ4反復剪定とワンショット剪定がリワインディング手法の有効性に与える影響は何か?
主な発見
- ウェイトリワインディングは、ネットワークとデータセットを横断してファインチューニングを上回る。
- 学習率リワインディングは、すべての状況でウェイトリワインディングと同等かそれを上回る。
- 学習率リワインディングは、反復的な非構造剪定で最先端のAccuracy versus Parameter-Efficiency トレードオフを達成する。
- 提案された学習率リワインディングを用いた剪定アルゴリズムは、圧縮比ごとのハイパーパラメータなしで最先端のトレードオフに一致する。
- ウェイトリワインディングはほぼ最先端の結果に匹敵し、 lottery-ticket サブネットワークが一般的な剪定ネットワークと競合することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。