[論文レビュー] To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis
本論文はトークン危機下でデータを繰り返してプレトレーニングを行う(多エポック学習)を研究し、多エポック劣化を示し、その原因を特定し、ドロップアウトとMoE(混成専門家)に基づくハイパーパラメータ調整を用いた緩和策を提案する。
Recent research has highlighted the importance of dataset size in scaling language models. However, large language models (LLMs) are notoriously token-hungry during pre-training, and high-quality text data on the web is approaching its scaling limit for LLMs. To further enhance LLMs, a straightforward approach is to repeat the pre-training data for additional epochs. In this study, we empirically investigate three key aspects under this approach. First, we explore the consequences of repeating pre-training data, revealing that the model is susceptible to overfitting, leading to multi-epoch degradation. Second, we examine the key factors contributing to multi-epoch degradation, finding that significant factors include dataset size, model parameters, and training objectives, while less influential factors consist of dataset quality and model FLOPs. Finally, we explore whether widely used regularization can alleviate multi-epoch degradation. Most regularization techniques do not yield significant improvements, except for dropout, which demonstrates remarkable effectiveness but requires careful tuning when scaling up the model size. Additionally, we discover that leveraging mixture-of-experts (MoE) enables cost-effective and efficient hyper-parameter tuning for computationally intensive dense LLMs with comparable trainable parameters, potentially impacting efficient LLM development on a broader scale.
研究の動機と目的
- トークン不足(トークン危機)の中でLLMのスケーリングにおけるデータ逼迫を扱い、研究の動機づけを行う。
- プレトレーニングデータを繰り返すことがモデル性能と下流タスクに与える影響を経験的に定量化する。
- 多エポック劣化を引き起こすデータ・モデル・学習目的の要因を特定する。
- ドロップアウトやMoEを含む正則化およびアーキテクチャ戦略を探索して劣化を緩和する。
- MoEを用いたコスト効果の高いハイパーパラメータ調整手法を提案し、より大きな密なモデルの挙動を予測する。
提案手法
- データを繰り返してC4でプレトレーニングを再現し、データを大量に必要とする挙動を評価する;C4上でChinchillaのスケーリング則を検証する。
- データセットサイズ、繰り返し率、総計算量を体系的に変化させ、モデル規模(Base、Large、XL)間で多エポック劣化を観察する。
- トークン crisis 下でのトレーニング目的(MLM 対 UL2)を比較し、劣化と下流タスクへの影響を評価する。
- アブレーション研究を通じて正則化技術(ドロップアウト、dropPath、ラベルスムージング、ウェイトデケイ)を評価し、効果的な緩和策を特定する。
- Mixture-of-Experts (MoE) とパラメータ共有 (ParamShare) を用いてパラメータとFLOPsを分離し、MoEを大規模密モデルの挙動予測の手法としてテストする。
- MoEを用いたドロップアウトの範囲探索を実施して最適なドロップアウト率を特定し、MoEベースのハイパーパラメータ調整が計算量を削減することを実証する。
実験結果
リサーチクエスチョン
- RQ1トークン危機下でプレトレーニングデータを繰り返すことはLLMにどのような影響を及ぼすか?
- RQ2データが繰り返されるとき、多エポック劣化を引き起こす要因(データ・モデル・学習目的)は何か?
- RQ3正則化技術は多エポック劣化を緩和できるか、どれが最も効果的か?
- RQ4MoEアーキテクチャとハイパーパラメータ調整は、大規模密モデルの調整コストを予測・代替できるか?
- RQ5異なる学習目的(MLM vs UL2)は、トークン危機下での劣化と下流性能にどのように影響するか?
主な発見
- 繰り返しトークンで学習すると多エポック劣化が生じる;トークン危機下では大規模モデルの方が過学習に陥りやすい。
- データセットサイズを増やすと劣化を緩和できるが、データセット品質だけでは完全には緩和できない;モデルパラメータが劣化に影響を与え、FLOPsの影響は限定的。
- Mixture-of-Experts (MoE) は低 FLOPs でより大きな密モデル挙動をシミュレートでき、コスト効率の良いハイパーパラメータ調整を実現する;ドロップアウトによる正則化は特に効果的だが、他の工夫は限定的または負の効果を示す。
- ドロップアウトはモデル規模を超えて安定性を大幅に向上させるが、XL規模では慎重な調整が必要な課題が残る;段階的/段階的導入ドロップアウトは初期段階の混乱を抑えつつ性能を維持できる。
- UL2目的は学習を加速するが、トークン危機下では従来のMLMよりも強い多エポック劣化を示す可能性がある;多様な目的は普遍的に劣化を緩和するとは限らない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。