[論文レビュー] DataComp-LM: In search of the next generation of training sets for language models
DataComp-LM(DCLM)は、240TトークンのCommon Crawl由来コーパスを標準化し、言語モデル事前学習のデータ選定を評価するフレームワークを導入します。モデルベースのフィルタリングにより高品質な学習データセットを得られ、開放データで最先端の成果を達成、7Bモデルで2.6Tトークン。
We introduce DataComp for Language Models (DCLM), a testbed for controlled dataset experiments with the goal of improving language models. As part of DCLM, we provide a standardized corpus of 240T tokens extracted from Common Crawl, effective pretraining recipes based on the OpenLM framework, and a broad suite of 53 downstream evaluations. Participants in the DCLM benchmark can experiment with data curation strategies such as deduplication, filtering, and data mixing at model scales ranging from 412M to 7B parameters. As a baseline for DCLM, we conduct extensive experiments and find that model-based filtering is key to assembling a high-quality training set. The resulting dataset, DCLM-Baseline enables training a 7B parameter language model from scratch to 64% 5-shot accuracy on MMLU with 2.6T training tokens. Compared to MAP-Neo, the previous state-of-the-art in open-data language models, DCLM-Baseline represents a 6.6 percentage point improvement on MMLU while being trained with 40% less compute. Our baseline model is also comparable to Mistral-7B-v0.3 and Llama 3 8B on MMLU (63% & 66%), and performs similarly on an average of 53 natural language understanding tasks while being trained with 6.6x less compute than Llama 3 8B. Our results highlight the importance of dataset design for training language models and offer a starting point for further research on data curation.
研究の動機と目的
- 言語モデルの訓練データ選定を統制されたベンチマークとして確立し、データ品質とモデルアーキテクチャおよび訓練選択を切り離す。
- 大規模で標準化されたデータプール(DCLM-Pool)と、再現性のあるフィルタリング、重複排除、ミキシング実験をモデル規模(400M〜7Bパラメータ)に跨って可能にするオープンツールを提供する。
- データ選定戦略(重複排除、フィルタリング、データ混合)が共通評価スイートで下流性能にどのような影響を与えるかを評価する。
- 計算コストを抑えつつ性能を向上させる効果的なデータ選定実践を特定する。
提案手法
- DCLM-Poolを作成する: resiliparseを用いてHTML抽出を行う、未フィルタリングの240TトークンのCommon Crawl由来コーパス。
- 5つの計算スケール(400M-1x、1B-1x、1B-5x、7B-1x、7B-2x)を用いたマルチスケールベンチマークと、データ影響を分離する標準化されたOpenLMベースの訓練レシピを定義する。
- データ選定パイプラインを2つのトラックで評価する:フィルタリング(プールから選択)とミキシング(複数ソースを組み合わせ)。
- データセット品質を評価するために53の下流タスクのスイートを適用する(MMLU 5-shot、Core、Extended指標、その他)。
- データ設計要素(テキスト抽出、重複排除、モデルベースの品質フィルタリング、ミキシング)をアブレーションを通じて調査し、DCLM-baselineデータセットを形成する。

実験結果
リサーチクエスチョン
- RQ1どのデータ選定戦略(重複排除、フィルタリング、ミキシング)がベースライン言語モデルの下流性能を最も高めるか?
- RQ2テキスト抽出手法と重複排除は、複数の計算スケールにおいてモデル性能にどのような影響を与えるか?
- RQ3モデルベースのフィルタリングは、ヒューリスティックなアプローチと比較してデータセットの品質をどの程度改善できるか?
- RQ4高品質ソースとCommon Crawl由来データを混合することは、様々なスケールで性能を向上させるか、それとも悪化させるか?
- RQ5高品質なオープンデータセット(DCLM-baseline)は、プライベートデータセットに比べて限られた計算資源で最先端風の性能を達成できるか?
主な発見
- モデルベースのフィルタリングは、DCLM-baselineの効果的なデータ選定における重要な要素である。
- OH-2.5 + ELI5の正例データとトップ10%閾値を用いたfastTextベースのフィルタリングは、CoreおよびMMLUの性能を高く示した。
- DCLM-baselineは2.6Tトークンで7Bモデルを訓練し、MMLU(5-shot)で64%を達成。より多くの計算資源を使って訓練したいくつかのオープンウェイトのベースラインを上回った。
- DCLM-baselineはMMLUで64%に達し、Mistral-7B-v0.3(63%)およびLlama 3 8B(66%)と競合する一方、Llama 3 8Bより6.6x少ない計算資源を使用している。
- 高品質ソースとCCを混合することは、一部のサブセット(例:C4、RPJ-CC)を改善する可能性があるが、DCLM-baselineでは性能を害することもあり、混合効果は基礎データ品質に依存することを示している。
- 7Bモデルを2.6Tトークンで訓練したDCLM-baselineは、オープンデータモデルの最先端に近づき、同様の規模のクローズドデータモデルと競合する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。