[論文レビュー] Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone
Phi-3-mini は 3.8B パラメータの言語モデルで、3.3T トークンを用いて訓練され、スマートフォン上で動作可能で、Mixtral 8x7B や GPT-3.5 のような大規模モデルに匹敵するか上回る。さらにバリアント(7B および 14B)では性能がより高い。性能は、フィルタリングされたウェブデータと合成データを組み合わせたデータ指向の訓練レシピと、安全性・チャット用の整合性によって生まれる。
We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. Our training dataset is a scaled-up version of the one used for phi-2, composed of heavily filtered publicly available web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide parameter-scaling results with a 7B, 14B models trained for 4.8T tokens, called phi-3-small, phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75%, 78% on MMLU, and 8.7, 8.9 on MT-bench). To enhance multilingual, multimodal, and long-context capabilities, we introduce three models in the phi-3.5 series: phi-3.5-mini, phi-3.5-MoE, and phi-3.5-Vision. The phi-3.5-MoE, a 16 x 3.8B MoE model with 6.6 billion active parameters, achieves superior performance in language reasoning, math, and code tasks compared to other open-source models of similar scale, such as Llama 3.1 and the Mixtral series, and on par with Gemini-1.5-Flash and GPT-4o-mini. Meanwhile, phi-3.5-Vision, a 4.2 billion parameter model derived from phi-3.5-mini, excels in reasoning tasks and is adept at handling both single-image and text prompts, as well as multi-image and text prompts.
研究の動機と目的
- 小規模な言語モデルが、単にモデルサイズを拡大するのではなく、データ品質と狙いを定めたポスト訓練によって高い性能を達成できることを示す。
- phi-3-mini がデバイス上で動作することを示す(4K コンテキスト、128K ロングコンテキスト variante)そして ~1.8GB に収めるために 4-bit へ量子化する。
- より高容量の変種として phi-3-small および phi-3-medium を導入し、それらの性能をより大きなベースラインと比較する。
- データセット設計、2 段階の事前学習、ポスト訓練(SFT および DPO)、および安全性整合プロセスを説明する。
提案手法
- 3072 の隠れ次元、32 ヘッド、32 層のトランスフォーマー・デコーダを使用; 4K コンテキスト(LongRope 使用で 128K バリアント)。
- heavy ly filtered web data と合成データを用いて 3.3T tokens を2フェーズで訓練(Phase-1 は一般知識、Phase-2 は推論/ニッチスキル)。
- 安全性・ロバスト性・チャット風の利用に整列させるため、監視付き微調整(SFT)と直接的好み最適化(DPO)でポスト訓練を行う。
- phi-3-mini を 4-bit に量子化して ~1.8GB のデバイス展開; 標準ベンチマークで 5-shot 以下のプロンプトと固定評価パイプラインで評価。

実験結果
リサーチクエスチョン
- RQ1データ最適化されたレジームとポスト訓練の整列で訓練された場合、4B 未満の小規模言語モデルは大規模モデルと同等の性能に到達できるか。
- RQ2オンデバイス LLM 展開におけるモデルサイズ、データ品質、コンテキスト長のトレードオフは何か。
- RQ3データ精選と SFT および DPO が小規模LLMs の安全性・堅牢性・指示遵守に与える影響はどうなるか。
- RQ4長いコンテキスト拡張(128K)が標準の 4K コンテキストと比較して回答品質に与える影響は何か。
主な発見
| モデル | MMLU (5-Shot) | HellaSwag (5-Shot) | ANLI (7-Shot) | GSM-8K (0-Shot; CoT) | MedQA (2-Shot) | AGIEval (0-Shot) | TriviaQA (5-Shot) | Arc-C (10-Shot) | Arc-E (10-Shot) | PIQA (5-Shot) | SociQA (5-Shot) | BigBench-Hard (0-Shot) | WinoGrande (5-Shot) | OpenBookQA (10-Shot) | BoolQ (0-Shot) | CommonSenseQA (10-Shot) | TruthfulQA (10-Shot) | HumanEval (0-Shot) | MBPP (3-Shot) | Average | GPQA (2-Shot) | MT Bench (2 ラウンド平均) |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Phi-3-mini 3.8b | 68.8 | 76.7 | 52.8 | 82.5 | 53.8 | – | 64.0 | 84.9 | 94.6 | 84.2 | 76.6 | 71.7 | 70.8 | 83.2 | 77.2 | 65.0 | 59.1 | 70.0 | 71.2 | 32.8 | 8.38 | |
| Phi-3-small 7b (preview) | 75.3 | 78.7 | 55.0 | 88.9 | 58.2 | – | 59.1 | 90.7 | 97.1 | 87.8 | 79.0 | 75.0 | 82.5 | 88.4 | 82.9 | 68.7 | 68.7 | 71.4 | 74.9 | 34.3 | 8.70 | |
| Phi-3-medium 14b (preview) | 78.2 | 83.0 | 58.7 | 90.3 | 69.4 | – | 75.6 | 91.0 | 97.8 | 87.7 | 80.2 | 81.3 | 81.4 | 87.2 | 86.6 | 75.7 | 75.7 | 74.5 | 78.2 | – | 8.91 | |
| Phi-2 2.7b | 56.3 | 53.6 | 42.5 | 61.1 | 40.9 | – | 45.2 | 75.9 | 88.5 | 60.2 | 68.3 | 59.4 | 54.7 | 73.6 | 78.3 | 60.1 | 62.0 | 60.6 | 69.9 | – | – | |
| Mistral 7b | 61.7 | 58.5 | 47.1 | 46.4 | 49.6 | – | 72.3 | 78.6 | 90.6 | 77.7 | 74.6 | 57.3 | 54.2 | 79.8 | 66.0 | 53.0 | 55.6 | 50.8 | 62.0 | – | – | |
| Gemma 7b | 63.6 | 49.8 | 48.7 | 59.8 | 50.0 | – | 75.2 | 78.3 | 91.4 | 78.1 | 65.5 | 59.6 | 55.6 | 78.6 | 66.0 | 53.0 | 59.6 | 51.5 | 68.0 | – | – | |
| Llama-3-In 8b | 66.0 | 69.5 | 54.8 | 77.4 | 58.9 | – | 73.6 | 80.5 | 92.3 | 77.1 | 73.2 | 68.9 | 58.0 | 81.6 | 78.3 | 62.0 | 68.0 | 65.3 | 68.0 | – | – | |
| Mixtral 8x7b | 68.4 | 70.4 | 55.2 | 64.7 | 62.2 | – | 82.2 | 87.3 | 95.6 | 86.0 | 75.9 | 69.7 | 62.0 | 85.8 | 77.6 | 60.1 | 62.0 | 60.2 | 69.9 | – | – | |
| GPT-3.5 version 1106 | 71.4 | 78.8 | 58.1 | 78.1 | 63.4 | – | 85.8 | 87.4 | 96.3 | 86.6 | 68.3 | 68.32 | 68.8 | 86.0 | 79.1 | 85.8 | 77.6 | 77.8 | 75.3 | – | – |
- phi-3-mini (3.8B) は MMLU 69%、MT-bench 8.38 を達成し、Mixtral 8x7B および GPT-3.5 と競合する。
- phi-3-small (7B, preview) は MMLU 75% および MT-bench 8.7 を達成。
- phi-3-medium (14B, preview) は MMLU 78% および MT-bench 8.9 を達成。
- Long-context phi-3-mini-128K は 4K と同様の品質を維持しつつ長いコンテキスト課題を処理。
- 4-bit に量子化された phi-3-mini は iPhone 14 の A16 Bionic で 1 秒あたり 12 トークン以上で動作。
- SFT および DPO のポスト訓練は有害な応答を減らし、安全性・堅牢性・推論能力を向上させる。
- データ最適レジームを用いて小型モデルの訓練データを調整することで、データ品質が性能の一部のスケールの代替になり得ることを示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。