QUICK REVIEW

[論文レビュー] Learning Sparse Networks Using Targeted Dropout

Aidan N. Gomez, Chunshun Zhang|arXiv (Cornell University)|May 31, 2019

Machine Learning and ELM参考文献 42被引用数 76

ひとこと要約

ターゲットドロップアウトは、トレーニング中に最小振幅の重みを選択的にドロップすることで剪定に対してネットワークを頑健にし、アーキテクチャやデータセット全体で最小限の精度低下とともに非常に高いスパーシティを実現します。

ABSTRACT

Neural networks are easier to optimise when they have many more weights than are required for modelling the mapping from inputs to outputs. This suggests a two-stage learning procedure that first learns a large net and then prunes away connections or hidden units. But standard training does not necessarily encourage nets to be amenable to pruning. We introduce targeted dropout, a method for training a neural network so that it is robust to subsequent pruning. Before computing the gradients for each weight update, targeted dropout stochastically selects a set of units or weights to be dropped using a simple self-reinforcing sparsity criterion and then computes the gradients for the remaining weights. The resulting network is robust to post hoc pruning of weights or units that frequently occur in the dropped sets. The method improves upon more complicated sparsifying regularisers while being simple to implement and easy to tune.

研究の動機と目的

計算量とストレージを削減するためにニューラルネットワークのスパース化を動機づけ、精度低下を大きく伴わせない。
重要でない重みにターゲットを絞ったドロップアウトを適用することで、事後の剪定に対してネットワークを頑健にする訓練手順を提案する。
ターゲットドロップアウトが標準的な正則化手法や剪定ヒューリスティクスと比較して、スパース性と精度のトレードオフを改善することを示す。
複数のアーキテクチャ（ResNet、Wide ResNet、Transformer）およびデータセット（CIFAR-10、ImageNet、WMT EN-DE）に渡って手法を実証する。
実務者向けに実用的な指針と、既存のスパース化手法との比較を提供する。

提案手法

重みやユニットを、速い重要性指標（例：大きさ）でランク付けする。
ターゲティング比 γ とドロップ率 α を定義し、ドロップアウトの対象として下位 γ|θ| の重みを選択し、確率 α でそれらをドロップする。
勾配計算の各ステップで、選択した重要度の低い要素にドロップアウトを適用し、剪定に対する頑健性を促進する。
重要なサブネットワーク（大きさで上位 k 重み）が、重要でないサブネットワークに依存しないようにネットワークを訓練する。
訓練後の貪欲な大きさベースの剪定を用い、ターゲットドロップアウトを L1 および L0 正則化、変分ドロップアウト、Smallify と比較する。
ResNet、Wide ResNet、Transformer などのアーキテクチャと CIFAR-10、ImageNet、WMT EN-DE に渡って評価する。

実験結果

リサーチクエスチョン

RQ1ターゲットドロップアウトは、標準的なドロップアウトやスパース性誘発正則化器と比較して、事後剪定に対するネットワークの頑健性を改善しますか？
RQ2ターゲットドロップアウトは、さまざまなアーキテクチャとデータセットで、90–99% などの高いスパース性を、タスク性能の最小限の低下とともに達成できますか？
RQ3ターゲットドロップアウトの下で、重要なサブネットワークと重要でないサブネットワークの依存関係はどう変化し、それが剪定結果とどう関係しますか？
RQ4現実のモデルにおける、L1/L0、変分ドロップアウト、Smallify など既存の剪定手法と比較した場合の、ターゲットドロップアウトの実践的利点と制限は何ですか？
RQ5ターゲットドロップアウトのランプや固定パターンの変種は、異なるアーキテクチャ全般で有効ですか？

主な発見

ターゲットドロップアウトは精度を維持しつつ強いスパース化をもたらす：例えば ResNet-32 で CIFAR-10 の精度低下が 4% 未満で、99% のスパース性を達成。
ターゲットドロップアウトで訓練されたネットワークは、重要なサブネットワークが重要でないサブネットワークに依存する度合いが大幅に低下し、剪定時の ΔE が小さくなる。
標準的なドロップアウト、L1、L0正則化と比較して、ターゲットドロップアウトは複数のアーキテクチャ（ResNet、Wide ResNet、Transformer）とデータセットでより良いスパース性-精度のトレードオフを達成します。
Transformer 実験では、ターゲットドロップアウトは高いスパース性において BLEU スコアを改善（70% のスパース性で EN-DE の場合最大で +15 BLEU など）。
ターゲットドロップアウトのランピング（ramping TD）変種は、非常に高いスパース性（約99%）を競争力のある精度で達成でき、特定のレジームでは Smallify など他のスパーストレーニング手法を上回ることもある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。