[論文レビュー] Scaling Laws and Interpretability of Learning from Repeated Data
本論文は、大規模言語モデルの訓練におけるデータのごく一部の繰り返しが強いダブルディセントの劣化を引き起こすことを研究し、機械的解釈性と関連付け、コピーおよび誘導ヘッド関連構造への影響を過度に大きく示す。
Recent large language models have been trained on vast datasets, but also often on repeated data, either intentionally for the purpose of upweighting higher quality data, or unintentionally because data deduplication is not perfect and the model is exposed to repeated data at the sentence, paragraph, or document level. Some works have reported substantial negative performance effects of this repeated data. In this paper we attempt to study repeated data systematically and to understand its effects mechanistically. To do this, we train a family of models where most of the data is unique but a small fraction of it is repeated many times. We find a strong double descent phenomenon, in which repeated data can lead test loss to increase midway through training. A predictable range of repetition frequency leads to surprisingly severe degradation in performance. For instance, performance of an 800M parameter model can be degraded to that of a 2x smaller model (400M params) by repeating 0.1% of the data 100 times, despite the other 90% of the training tokens remaining unique. We suspect there is a range in the middle where the data can be memorized and doing so consumes a large fraction of the model's capacity, and this may be where the peak of degradation occurs. Finally, we connect these observations to recent mechanistic interpretability work - attempting to reverse engineer the detailed computations performed by the model - by showing that data repetition disproportionately damages copying and internal structures associated with generalization, such as induction heads, providing a possible mechanism for the shift from generalization to memorization. Taken together, these results provide a hypothesis for why repeating a relatively small fraction of data in large language models could lead to disproportionately large harms to performance.
研究の動機と目的
- 繰り返しデータが言語モデルの性能に与える影響をスケーリング法フレームワークを用いて調査する。
- モデルサイズと繰り返し頻度に跨るデータ繰り返しによって生じるダブルディセント現象を特徴づける。
- 性能劣化を説明するために、特に誘導ヘッドとコピーを含む機械的解釈可能性の側面を検討する。
- 繰り返しデータによる事前訓練が下流のファインチューニングと汎化に与える影響を評価する。
提案手法
- ほとんどユニークなデータの上に、小さな分数のデータをサイズと繰り返し頻度のオーダー2〜3の範囲で何度も繰り返して訓練する、トランスフォーマ言語モデルを訓練する。
- 訓練を通じて100Bトークンに到達させる間、モデルサイズ、繰り返しデータのサイズ、および繰り返しデータからのトークンの割合を変化させる。
- テスト損失、コピーに焦点を当てたタスク(Harry Potter paragraph copying)、およびプレフィックスマッチングや誘導ヘッドなどの機械的プローブを用いて評価する。
- スケーリング法の挙動を分析し、繰り返しがピーク劣化を引き起こす領域を同定する。これはダブルデセント現象と一致する。
- 小さなアテンションのみモデルを用いて、回路レベルで誘導ヘッドとコピーを検査し、現象と機構を結びつける。
実験結果
リサーチクエスチョン
- RQ1ごく一部の繰り返しデータは、モデルサイズや繰り返し頻度を跨いで、言語モデルの性能に不均衡な劣化を引き起こすのか?
- RQ2繰り返しデータはコピーや文脈内学習のメカニズム(誘導ヘッドなど)にどのような影響を与えるのか?
- RQ3劣化パターンはダブルデセントのダイナミクスで説明できるのか、またスケーリング法とどう関係するのか?
- RQ4繰り返しデータを用いた事前訓練がその後のファインチューニング性能に与える影響は何か?
- RQ5機械的に解針可能なプローブ(コピー、プレフィックスマッチ、誘導ヘッド)は、繰り返しと記憶行動との因果関係を示すのか?
主な発見
- 繰り返しデータは強力なダブルディセント現象を誘発し、ピーク劣化は中間の繰り返し頻度で見られる。
- 800Mパラメータのモデルでは、データの0.1%を100回繰り返すと、性能が400Mパラメータのモデルと同等になる。
- ピーク劣化は、繰り返しデータの訓練損失が0に近づくのと一致しており、繰り返しサブセットでの記憶を示している。
- 繰り返しデータはコピーおよび誘導ヘッド関連構造に対して不均衡に大きな影響を及ぼし、全体のテスト損失よりも顕著である。
- コピータスクは、劣化のピーク時に有効モデルサイズを最大3倍低下させることが分かる。テスト損失がそれほど悪化しない場合でも。
- 誘導ヘッドとプレフィックスマッチは繰り返しの下で著しく劣化し、記憶とモデルの機械的変化を結びつける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。