[論文レビュー] Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping
本論文は、重み初期化とデータ順序のランダムシードがGLUEタスクでのBERT微調整に顕著な分散を引き起こすことを示し、複数試行と早期停止による改善を実証する。また、さらなる分析のための広範な訓練データを公開している。
Fine-tuning pretrained contextual word embedding models to supervised downstream tasks has become commonplace in natural language processing. This process, however, is often brittle: even with the same hyperparameter values, distinct random seeds can lead to substantially different results. To better understand this phenomenon, we experiment with four datasets from the GLUE benchmark, fine-tuning BERT hundreds of times on each while varying only the random seeds. We find substantial performance increases compared to previously reported results, and we quantify how the performance of the best-found model varies as a function of the number of fine-tuning trials. Further, we examine two factors influenced by the choice of random seed: weight initialization and training data order. We find that both contribute comparably to the variance of out-of-sample performance, and that some weight initializations perform well across all tasks explored. On small datasets, we observe that many fine-tuning trials diverge part of the way through training, and we offer best practices for practitioners to stop training less promising runs early. We publicly release all of our experimental data, including training and validation scores for 2,100 trials, to encourage further analysis of training dynamics during fine-tuning.
研究の動機と目的
- 重み初期化とデータ順序のランダムシードの変動がGLUEタスクの微調整性能に与える影響を評価する.
- より多くの微調整試行を行うにつれて最適モデルの性能がどの程度改善されるかを定量化する.
- 早期停止を通じて無駄な計算を削減する実用的な戦略を特定する.
- 一部のシード構成がタスクを越えて一貫して強い初期化やデータ順序をもたらすかを評価する.
提案手法
- BERT-largeを4つのGLUEタスクで微調整する際、唯一変えるのは2つのランダムシード:最終分類層の重み初期化と訓練データの順序。
- 各タスクにつき数百のモデルを訓練する(小規模データセットあたり625、SSTは225)シードから生じる分散を捉えるため。
- 各実行で検証性能を測定し、試行回数の関数として期待される最良性能を計算する。
- WIとDOシードの影響を個別にも共同にも分析して分散源を切り分ける。
- 固定計算予算の下で、最も有望でない試行を早期に打ち切る早期停止アルゴリズムを提案・評価する。
実験結果
リサーチクエスチョン
- RQ1WIおよびDOシードはGLUEタスク全体の微調整性能の分散にどの程度寄与するか?
- RQ2最も性能の高いモデルは、より多くの微調整試行で測定可能な改善を示すか、どれくらい迅速に収束するか?
- RQ3早期停止は計算量を削減しつつ期待性能を維持・向上できるか?
- RQ4いくつかのシード構成はタスクを越えて一貫して堅牢か?
主な発見
- 異なるランダムシードで複数の微調整試行を実行することで、4つのGLUEタスクで単一試行結果よりも顕著な性能向上が得られる。
- 重み初期化と訓練データ順序は分散に同等に寄与し、いくつかのシードはタスクを跨って一貫して優れている。
- 一部のシード構成は複数データセットで堅牢で、転用可能な良好な初期化を示唆している。
- 単純な早期停止戦略は、固定予算の下で期待性能を向上させることができる。
- 著者は訓練ダイナミクスのさらなる分析を可能にするため、2,100の微調整エピソードのデータを公開している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。