[論文レビュー] A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity
この研究は、データの古さ、品質/有害性フィルタリング、ドメイン構成が言語モデルの性能に与える影響を定量化するために28モデルを事前学習し、ワンサイズフィットすなわちのフィルタリングは存在せず、異種データソースの価値を示す。
Pretraining is the preliminary and fundamental step in developing capable language models (LM). Despite this, pretraining data design is critically under-documented and often guided by empirically unsupported intuitions. To address this, we pretrain 28 1.5B parameter decoder-only models, training on data curated (1) at different times, (2) with varying toxicity and quality filters, and (3) with different domain compositions. First, we quantify the effect of pretraining data age. A temporal shift between evaluation data and pretraining data leads to performance degradation, which is not overcome by finetuning. Second, we explore the effect of quality and toxicity filters, showing a trade-off between performance on standard benchmarks and risk of toxic generations. Our findings indicate there does not exist a one-size-fits-all solution to filtering training data. We also find that the effects of different types of filtering are not predictable from text domain characteristics. Lastly, we empirically validate that the inclusion of heterogeneous data sources, like books and web, is broadly beneficial and warrants greater prioritization. These findings constitute the largest set of experiments to validate, quantify, and expose many undocumented intuitions about text pretraining, which we hope will help support more informed data-centric decisions in LM development.
研究の動機と目的
- 事前学習データの古さが下流の性能とファインチューニングの結果にどう影響するかを測定する。
- 品質と有害性フィルターがモデルの挙動とタスク性能をどう変えるかを評価する。
- ドメイン構成(書籍、ウェブ等)が一般化と有害性に与える影響を評価する。
- LM事前学習におけるデータ選別の実践的推奨を提供する。
- 1.5Bパラメータの28モデルの大規模セットで結果を検証し、テキスト事前学習の直感を露呈させる。
提案手法
- 時代、有害性/品質フィルター、またはドメイン構成に沿って修正されたデータセットで、デコーダー専用の1.5Bパラメータモデル(LM-XL)を28モデル事前学習させる。
- 開始データセットとしてC4とPileを使用し、複数のフィルター(品質閾値、有害性閾値、逆フィルター)を適用する。
- データセットを重複除外し、未フィルタリングのベースラインデータセットと比較する。
- 時系列的に変化させたベンチマークとドメイン多様性のあるベンチマークで、QA、有害性識別、有害性生成タスクの下流性能を評価する。
- フィルター効果を文脈づけるために、PII、可読性、長さなどの観察データ特性を分析する。
実験結果
リサーチクエスチョン
- RQ1事前学習データの古さが下流モデルの性能とファインチューニング効果に与える影響はどの程度か。
- RQ2品質および有害性フィルターは、モデルの性能と有害性関連挙動のトレードオフにどのように影響するか。
- RQ3事前学習データのドメイン構成は一般化と有害性生成にどのような影響を与えるか。
- RQ4フィルタリングの効果は高レベルのテキストドメイン特性から予測可能か。
- RQ5書籍とウェブのような異種データソースの包含は、下流タスクに一貫して利益をもたらすか。
主な発見
- 事前学習と評価データの時系列の不一致は、特に大規模モデルで性能を低下させる。
- 品質フィルタリングはデータ量を減らしても下流性能を向上させる一方、有害性フィルタリングは一般化とQA性能を低下させる可能性がある。
- 有害性と品質は一貫して一致しない。高有害性コンテンツは高品質信号を持つ場合があり、ドメイン特性だけではフィルタリング結果を予測できない。
- 書籍とウェブデータのような異種データソースの包含は一般に性能を改善し、書籍はより高い有害性を寄与する。
- データの古さとドメイン混合は、ワンサイズフィットしない形でモデル性能に影響を与えるため、ニュアンスのあるデータ整備戦略の必要性を浮き彫りにしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。