[論文レビュー] The Lottery Ticket Hypothesis for Pre-trained BERT Networks
この論文は、スパースでトレーニング可能なサブネットワークが事前学習済みの BERT に非自明なスパース性(40–90%)で存在することを示し、事前学習初期化で見つかったいくつかのサブネットワークは下流タスクで完全な精度まで訓練可能である、そして MLM からの普遍的サブネットワークがタスク間に転移することを示している。
In natural language processing (NLP), enormous pre-trained models like BERT have become the standard starting point for training on a range of downstream tasks, and similar trends are emerging in other areas of deep learning. In parallel, work on the lottery ticket hypothesis has shown that models for NLP and computer vision contain smaller matching subnetworks capable of training in isolation to full accuracy and transferring to other tasks. In this work, we combine these observations to assess whether such trainable, transferrable subnetworks exist in pre-trained BERT models. For a range of downstream tasks, we indeed find matching subnetworks at 40% to 90% sparsity. We find these subnetworks at (pre-trained) initialization, a deviation from prior NLP research where they emerge only after some amount of training. Subnetworks found on the masked language modeling task (the same task used to pre-train the model) transfer universally; those found on other tasks transfer in a limited fashion if at all. As large-scale pre-training becomes an increasingly central paradigm in deep learning, our results demonstrate that the main lottery ticket observations remain relevant in this context. Codes available at https://github.com/VITA-Group/BERT-Tickets.
研究の動機と目的
- 下流の NLP タスクのために、事前学習済み BERT モデルでマッチングサブネットワーク( lottery tickets )が存在するかを評価する。
- これらのサブネットワークが事前学習時の初期化時および/または早期の訓練中に見つかるかを判断する。
- 見つかったサブネットワークの異なる下流タスク間での転移可能性を評価する。
- 多数のタスクへ転移して精度低下を伴わない普遍的なサブネットワークが存在するかを特定する。
提案手法
- 事前学習済み BERT ベースを theta_0 で初期化した状態から、反復的大きさ剪定(IMP)を用いてスパースなサブネットワークを特定する。
- 重みを大きさでグローバルに剪定してターゲットのスパース性まで削り、指定した訓練ステップ i にリワインドする(i=0 を含む)。
- 下流タスクで訓練して、完全な未剪定の BERT の性能と比較することでサブネットワークを評価する。
- IMP サブネットワークを、ランダム剪定およびランダム再初期化されたサブネットワークと比較して、剪定マスクと初期化の重要性を確立する。
- MLM由来のサブネットワークを剪定して複数タスクで評価することで、タスク間の転移性と普遍性の両方をテストする。
実験結果
リサーチクエスチョン
- RQ1事前学習済み theta_0 で初期化されたとき、非自明なスパース性で BERT にマッチングサブネットワークは存在するか?
- RQ2これらのサブネットワークは他の下流タスクへ転移するか、広く転移する普遍的なサブネットワークはあるか?
- RQ3中間の訓練状態へリワインドすることはサブネットワークの性能や転移性を改善するか?
- RQ4サブネットワークが MLM の事前学習から派生した場合と他の下流タスクから派生した場合の転移性能はどう比較されるか?
主な発見
- 事前学習初期化から剪定された場合、GLUE タスクと SQuAD において 40%–90% のスパース性でマッチングサブネットワークが存在する。
- MLM から得られたサブネットワークは他のタスクへ普遍的に転移する一方、他のタスクからのサブネットワークは限られた方法でのみ転移する。
- 中間の訓練ステップへリワインドしても性能の顕著な向上にはつながらず、いくつかのタスクで悪化することさえある。
- MLM 由来のサブネットワークは 70% のスパース性まで剪定すると、調査したタスク全体へ普遍的に転移する。
- MLM 由来のサブネットワークは転移性能が最も良く、対象タスクの多くでほぼ同一タスクの性能を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。