Skip to main content
QUICK REVIEW

[論文レビュー] QuRating: Selecting High-Quality Data for Training Language Models

Alexander Wettig, Aatmik Gupta|arXiv (Cornell University)|Feb 15, 2024
Natural Language Processing Techniques被引用数 6
ひとこと要約

QuRating は対になる LLM 判定を用いてテキストのスカラー品質評価を学習する(QuRater)を、4つの基準にわたって行い、これらの評価によってデータをサンプリングして 30B トークン上で 1.3B パラメータの LM を訓練し、 baselines と比べて in-context learning および perplexity を改善します。

ABSTRACT

Selecting high-quality pre-training data is important for creating capable language models, but existing methods rely on simple heuristics. We introduce QuRating, a method for selecting pre-training data that can capture human intuitions about data quality. In this paper, we investigate four qualities - writing style, required expertise, facts & trivia, and educational value - and find that LLMs are able to discern these qualities, especially when making pairwise judgments of texts. We train a QuRater model to learn scalar ratings from pairwise judgments, and use it to annotate a 260B training corpus with quality ratings for each of the four criteria. In our experiments, we select 30B tokens according to the different quality ratings and train 1.3B-parameter language models on the selected data. We find that it is important to balance quality and diversity. When we sample using quality ratings as logits over documents, our models obtain lower perplexity and stronger in-context learning performance than baselines. Our best model is based on educational value and performs similarly to a model trained with uniform sampling for 50% more steps. Beyond data selection, we use the quality ratings to construct a training curriculum which improves performance without changing the training dataset. We extensively analyze the quality ratings and discuss their characteristics, biases, and wider implications.

研究の動機と目的

  • 人間が知覚する抽象的なテキスト品質を捉え、それを LLM の前訓練データ選択に役立てる。
  • LLMs を用いた対判定の収集と、QuRater モデルを用いたスカラー品質評価の学習。
  • 4つの品質基準(ライティングスタイル、事実・雑学、教育的価値、必要な専門知識)で大規模コーパスを注釈付けする。
  • 品質に基づくデータ選択とカリキュラムが、タスク全体のモデル性能とカバレッジに与える影響を評価する。

提案手法

  • 各基準ごとにテキスト間の対比較として品質基準を定式化する。
  • LLM から対判定を収集し、それを Bradley-Terry モデルを用いてスカラー評価に変換する。
  • 1.3B パラメータの QuRater(Sheared-Llama)を、テキスト入力から四つの品質評価を予測する多タスクヘッド付きで訓練する。
  • 260B- token SlimPajama由来コーパスを注釈付けして、四つの基準すべての評価を持つ QuRatedPajama を作成する。
  • QuRatedPajama から 30B tokens を、品質と多様性のバランスを取りながら温度制御サンプリング(tau)を用いてサンプリングする。
  • 選択データ上で 1.3B-parameter の LMs を訓練し、10 タスクに渡る perplexity および in-context learning を評価する;品質ランキングを用いた訓練カリキュラムを検討する。

実験結果

リサーチクエスチョン

  • RQ1LLM による対判定は、異なる基準を横断する抽象的なテキスト品質を安定して捉えられるか。
  • RQ2データ選択に用いる4つの品質基準は、下流の LM パフォーマンスとどのように相関するか。
  • RQ3品質に基づくロジット(温度付き)を用いたサンプリングは、一様サンプリングや困惑度ベースのフィルタリングより有利か。
  • RQ4教育価値・ライティングスタイル・事実・雑学・専門知識の要件は、LM 訓練における効果的なカリキュラム設計を導くか。
  • RQ5QuRating の適用が多様なドメインや社会的コンテンツにおいて生じる偏りや制約は何か。

主な発見

  • 対判定は、テキストに対する直接の評価よりも品質信号を安定的に生み出す。
  • 教育的価値は tau=2.0 のとき、タスク全体で in-context learning を一貫して改善する。
  • 事実・雑学と書き方は特定のタスクを改善するが、ICL において普遍的に優れているわけではなく、書き方が困惑度の改善で最も強く効果を示す。
  • 最高評定の文書のみを選択するとパフォーマンスが悪化することがある;品質と多様性のバランスをとる温度付きサンプリングは有益。
  • 品質評価によるカリキュラム順序付け(例:専門知識を徐々に高めるなど)は、データプールを変更せずにパフォーマンスを向上させることができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。