[論文レビュー] Deconstructing Lottery Tickets: Zeros, Signs, and the Supermask
この論文は Lottery Ticket (LT) フレームワークを削減して、マスク基準、マスク-1 の符号処理、マスク-0 凍結がすべて LT の性能に影響を及ぼすことを示し、強力な性能を発揮する未訓練マスクである Supermasks を導入します。
The recent "Lottery Ticket Hypothesis" paper by Frankle & Carbin showed that a simple approach to creating sparse networks (keeping the large weights) results in models that are trainable from scratch, but only when starting from the same initial weights. The performance of these networks often exceeds the performance of the non-sparse base model, but for reasons that were not well understood. In this paper we study the three critical components of the Lottery Ticket (LT) algorithm, showing that each may be varied significantly without impacting the overall results. Ablating these factors leads to new insights for why LT networks perform as well as they do. We show why setting weights to zero is important, how signs are all you need to make the reinitialized network train, and why masking behaves like training. Finally, we discover the existence of Supermasks, masks that can be applied to an untrained, randomly initialized network to produce a model with performance far better than chance (86% on MNIST, 41% on CIFAR-10).
研究の動機と目的
- LT コンポーネントの変動(マスク基準、マスク-1 の処理、マスク-0 の処理)が剪定と訓練のダイナミクスにどのように影響するかを評価する。
- 剪定された重みをゼロにするか凍結するかが LT の性能を左右するかを特定する。
- マスキング操作が暗黙の訓練過程として機能するか、および訓練されていないマスクが上回る性能を達成できるか(Supermasks)を検証する。
- 初期重みの符号が重要か、重みの大きさが LT サブネットワークに与える影響を評価する。
提案手法
- マスクを関数 M(w_i, w_f) として定義し、9 種類のマスク基準(例:large_final、magnitude_increase、movement など)を検討する。
- LT フレームワークを用いて MNIST (FC) および CIFAR-10 (Conv2, Conv4, Conv6) に対して反復的剪定を行う。
- マスク-1 の処理を、初期値への巻き戻し、再シャッフル、または符号の役割を探る定数の使用で評価する。
- マスク-0 の処理を、重みをゼロで凍結、初期値で凍結、または大きさの変化に基づく条件付きゼロ化を用いて評価する。
- 訓練されていないランダム初期化ネットワークにマスクを適用して性能を測定することで Supermasks を実験する。
- 確率的ベルヌーイ・ゲートマッピングを用いてマスクを二値マスク値に変換し、動的重み再スケーリング(DWR)を適用することで Supermasks を最適化する。
実験結果
リサーチクエスチョン
- RQ1さまざまなマスク基準 M(w_i, w_f) がアーキテクチャや剪定率にわたって LT の性能にどのように影響するか?
- RQ2保持された重みの符号を初期化後に保持することが、LT の訓練性の決定要因か?
- RQ3ゼロに設定された剪定重みは初期化時に凍結された剪定重みと異なる寄与をするか、マスキングを訓練とみなせるか?
- RQ4訓練されていないネットワークに適用したマスクは上回る性能を生むか(Supermasks)、学習済みマスクはフルネットワークの精度に近づけるか?
- RQ5動的重み再スケーリングは Supermask の性能を向上させ、マスクされたネットワークを完全に訓練されたネットワークに近づけるか?
主な発見
| ネットワーク | 初期マスク精度 | 符号一定初期化精度 | 初期化+学習済みマスク精度 | 学習済みマスク精度(S.C.) | 学習済みマスク精度(DWR) | 訓練済みネットワーク精度 |
|---|---|---|---|---|---|---|
| MNIST FC | 79.3 | 86.3 | 95.3 | 96.4 | 97.8 | 97.7 |
| CIFAR Conv2 | 22.3 | 37.4 | 64.4 | 66.3 | 65.0 | 69.2 |
| CIFAR Conv4 | 23.7 | 39.7 | 65.4 | 66.2 | 71.7 | 75.4 |
| CIFAR Conv6 | 24.0 | 41.0 | 65.3 | 65.4 | 76.3 | 78.3 |
- 複数のマスク基準(large_final のみではなく)が LT の性能と同等またはそれを上回ることができる;magnitude_increase と large_final がいくつかのネットで最も良好な性能を示す。
- 維持された重みの符号を保つことは、再初期化バリアント全体で LT の訓練性にとって重要であり、符号を保つと巻き戻しに近い性能を得られる。
- 剪定された重みをゼロにすることは重要であり、ゼロで凍結する方が初期化時に凍結するより有利で、 magnitude の変化に基づく条件付きゼロ化規則が結果を改善する。
- マスキングは訓練操作のように機能し、剪定された重みはゼロ方向への動作を通じて寄与する;ゼロマスクの重みはゼロに設定されるとしばしば利益を得る。
- Supermasks が存在する;慎重に選択されたマスクを用いた訓練されていないネットワークは MNIST で偶然確率を上回る性能(最大約40%)を、CIFAR-10 で最大約24%を達成できる。
- 動的重み再スケーリング(DWR)を用いた学習済みマスクは複数のデータセットでほぼフルネットワークの性能を達成しうる(例:MNIST FC 約97.7% のテスト精度、CIFAR-10 Conv6 約78.3%)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。