[論文レビュー] Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP
この論文は監視付き画像分類を超えて lottery ticket hypothesis を検証し、NLP(LSTM と Transformer)および RL(古典制御と Atari)で winning ticket 初期化が存在することを示し、より小さなモデルがフルモデルの性能に近づくことを可能にします。
The lottery ticket hypothesis proposes that over-parameterization of deep neural networks (DNNs) aids training by increasing the probability of a "lucky" sub-network initialization being present rather than by helping the optimization process (Frankle & Carbin, 2019). Intriguingly, this phenomenon suggests that initialization strategies for DNNs can be improved substantially, but the lottery ticket hypothesis has only previously been tested in the context of supervised learning for natural image tasks. Here, we evaluate whether "winning ticket" initializations exist in two different domains: natural language processing (NLP) and reinforcement learning (RL).For NLP, we examined both recurrent LSTM models and large-scale Transformer models (Vaswani et al., 2017). For RL, we analyzed a number of discrete-action space tasks, including both classic control and pixel control. Consistent with workin supervised image classification, we confirm that winning ticket initializations generally outperform parameter-matched random initializations, even at extreme pruning rates for both NLP and RL. Notably, we are able to find winning ticket initializations for Transformers which enable models one-third the size to achieve nearly equivalent performance. Together, these results suggest that the lottery ticket hypothesis is not restricted to supervised learning of natural images, but rather represents a broader phenomenon in DNNs.
研究の動機と目的
- NLP および RL 設定において、監視付き画像分類を超えて winning ticket 初期化が存在するかを評価する。
- NLP モデル(LSTM および Transformer)に対する lottery ticket の探索のため、反復剪定と遅延 rewind の有効性を評価する。
- RL タスク(古典的制御と Atari)における lottery ticket の存在と質を評価する。
- Transformer モデルの翻訳と LSTM 言語モデリングに対する性能に対するスパース性の影響を定量化する。
- 疎な初期化からのトレーニングがフルモデルの性能に近づく等、 lottery tickets の実践的な意味を示す。
提案手法
- NLP および RL において疎な winning tickets を見つけるために one-shot および iterative pruning を適用する。
- NLP では p=0.2 のグローバルな magnitude pruning を 20 回、RL では 20 回の剪定反復を行う。
- RL では最初のエポック後に winning tickets を重みへリセットする late rewinding を適用、NLP では通常のリセットと比較する。
- NLP タスクを評価: LSTM 言語モデリングを Wikitext-2、Transformer ベースの機械翻訳を WMT’14 En-De で実施し、 perplexity と BLEU を報告する。
- RL タスクを評価: 古典的制御は全結合ネットワーク、Atari は CNN ベースのポリシーで平均報酬を報告する。
実験結果
リサーチクエスチョン
- RQ1NLP および RL において、winning ticket 初期化は監視付き画像分類を超えて存在するか。
- RQ2反復剪定と遅延 rewind は NLP モデル(LSTMs および Transformers)および RL エージェントの稀なサブネットワークの性能を向上させるか。
- RQ3疎なサブネットワークが winning tickets として初期化されると、RL タスク(古典制御および Atari)で密なネットワークと同等の性能を達成できるか。
- RQ4剪定は lottery ticket フレームワークの下で Transformer ベースの翻訳および LSTM 言語モデリングの性能にどのような影響を与えるか。
主な発見
- Winning ticket 初期化は NLP のタスク(LSTM および Transformer の両方)で、剪定率が高くてもランダムチケットより有意に上回る。
- 反復剪定と late rewinding は lottery ticket の性能を大幅に改善し、NLP および RL では反復剪定の方が late rewinding より大きな影響を与える。
- Transformer Big モデルは winning ticket を用いると、未剪定モデルの BLEU スコアの 99% に、しかも重量の 1/3 のみで到達可能。
- RL では winning tickets は古典的制御タスクや多くの Atari ゲームでランダムチケットを凌駕するが、ゲームによって効果は異なる。
- Transformer の層ウェイトを剪定することと全モデルを剪定することは異なるロバスト性を示し、埋め込み層は感度パターンが異なる。
- 結果は lottery tickets がドメインを超えて一般的な現象であり、監視付き画像分類に限定されないことを示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。