Skip to main content
QUICK REVIEW

[論文レビュー] Phi-4 Technical Report

Marah Abdin, Jyoti Aneja|arXiv (Cornell University)|Dec 12, 2024
Advanced Research in Science and Engineering被引用数 24
ひとこと要約

Phi-4 は 14B パラメータの言語モデルで、合成データを大量に活用し、高度なデータキュレーションと新規のポスト訓練によって STEM 推論ベンチマークで GPT-4o の教師を凌駕しつつ、小規模での競争力のある性能を維持します。

ABSTRACT

We present phi-4, a 14-billion parameter language model developed with a training recipe that is centrally focused on data quality. Unlike most language models, where pre-training is based primarily on organic data sources such as web content or code, phi-4 strategically incorporates synthetic data throughout the training process. While previous models in the Phi family largely distill the capabilities of a teacher model (specifically GPT-4), phi-4 substantially surpasses its teacher model on STEM-focused QA capabilities, giving evidence that our data-generation and post-training techniques go beyond distillation. Despite minimal changes to the phi-3 architecture, phi-4 achieves strong performance relative to its size -- especially on reasoning-focused benchmarks -- due to improved data, training curriculum, and innovations in the post-training scheme.

研究の動機と目的

  • 小規模な LLM における推論力と問題解決能力を向上させるために、高品質な合成データの必要性を動機づける。
  • 合成データ生成、オーガニックデータのキュレーション、およびポスト訓練の洗練を組み合わせた多段階のデータ戦略を提案する。
  • データ品質と訓練レジメンが推論ベンチマークでより大きなモデルを上回ることを示す。
  • phi-4 が複数の推論量のタスクでより大きなベースラインに匹敵するか上回ること、かつ効率性を維持することを示す。

提案手法

  • 4096 コンテキスト長を持つ 14B デコーダーのみのトランスフォーマを開発(中間訓練時に 16K へ拡張)および多言語トークン化。
  • 多様な手法(マルチエージェント・ prompting、自己修正、指示反転、鍵となるトークン戦略)を用いて約 ~400B の重み付けなしトークンの合成データを生成。
  • 高品質なオーガニックデータ(ウェブ、書籍、コード)のキュレーションとフィルタリングを行い、合成生成の種を作り、推論タスクへの整合性を改善する。
  • 事前学習、中間訓練、ポスト訓練を含む段階的な訓練レジメンを適用し、アブレーションとターゲットベンチマークに基づいてデータ混合とカリキュラムを調整する。
  • 精緻化した SFT データセットと鍵トークン探索を用いた Direct Preference Optimization (DPO) を含むポスト訓練手法を使用して、出力を高精度の推論と安全性へ向けて誘導する。
Figure 1 : Average performance of different models on the November 2024 AMC-10 and AMC-12 tests. This is the average score (with maximum score 150) over the four tests on 100 runs with temperature $t=0.5$ . We chose $t=0.5$ to follow simple-evals [ 24 ] . Error bars are $2\sigma$ of the estimate. On
Figure 1 : Average performance of different models on the November 2024 AMC-10 and AMC-12 tests. This is the average score (with maximum score 150) over the four tests on 100 runs with temperature $t=0.5$ . We chose $t=0.5$ to follow simple-evals [ 24 ] . Error bars are $2\sigma$ of the estimate. On

実験結果

リサーチクエスチョン

  • RQ1合成データを用いたデータ中心の訓練レシピは、14Bモデルの推論能力にどのような影響を与えるか?
  • RQ2合成データと精練されたポスト訓練は、GPQA や MATH のような STEM ベンチマークではるかに大きなモデルとの差を縮められるか?
  • RQ3phi-4 における長い文脈推論と知識保持を最大化するデータ混合とカリキュラムは何か?
  • RQ4ポスト訓練手法(SFT、DPO、鍵トークン探索)の安全性、堅牢性、アライメントへの影響はどうか?

主な発見

  • phi-4 はサイズに比して推論ベンチマークで高い性能を発揮し、いくつかの STEM タスクでより大きなモデルとの比較を含む。
  • 合成データは性能の中心的推進力であり、ターゲットを絞ったデータ生成と中間訓練データ混合が長い文脈と推論能力を向上させる。
  • ポスト訓練技術(改訂 SFT、鍵トークン探索を伴う DPO、ジャッジ支援型 DPO)は出力をさらに洗練させ、アライメントと安全性を高める。
  • 新しい汚染に配慮した評価アプローチは、phi-4 の利得がテストセットの漏洩によって生じていないことを示しており、新規の AMC-2024 コンテストでの評価を含め、数学ベンチマークで競争力のある結果を示している。
  • 文脈長を拡張する中間訓練(4K から 16K)と長文脈データの組み合わせは、長文脈タスクの性能を向上させる。
  • データアブレーション研究は、合成データとターゲットを絞った高品質なオーガニックデータを優先することで、均一なデータ混合より推論の利得が大きく、ポスト訓練が知識と推論の強みをバランスさせることを示している。
Figure 2 : 5-shot MMLU score for phase 2 pretraining runs with 4 and 12 epochs of synthetic data. All models are trained for the same token horizon, thus the model with 4 epochs of synthetic has seen more (unique) web tokens. We see that despite many epochs on synthetic data, we do not see overfitti
Figure 2 : 5-shot MMLU score for phase 2 pretraining runs with 4 and 12 epochs of synthetic data. All models are trained for the same token horizon, thus the model with 4 epochs of synthetic has seen more (unique) web tokens. We see that despite many epochs on synthetic data, we do not see overfitti

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。