[論文レビュー] Textbooks Are All You Need II: phi-1.5 technical report
主に合成教科書風データで訓練された1.3BパラメータのTransformer(phi-1.5)は、より大規模なモデルと同等の常識・言語理解を達成し、マルチステップ推論やコーディングに卓越する。指示追従、偏り、幻覚に関する研究を支援するためのオープンソース公開を伴う。
We continue the investigation into the power of smaller Transformer-based language models as initiated by extbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on extbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named extbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, extbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source extbf{phi-1.5} to promote further research on these urgent topics.
研究の動機と目的
- 人工教科書風データを用いて、小規模LLMが高いレベルの能力をどのように獲得できるかを調査する。
- phi-1.5の常識的推論、言語タスク、およびマルチステップ推論の性能を、より大規模なモデルと比較して評価する。
- データの質と規模の役割、およびフィルタリング済みウェブデータの使用の影響を検討する。
- ウェブ訓練済みベースラインと比較したときの、phi-1.5の安全性・有害性・偏りの特性を検討する。
- インコンテキスト学習、解釈性、安全性に関する研究を可能にするため、モデルをオープンソース化する。
提案手法
- 24層、32ヘッド、文脈長2048を持つ1.3BパラメータのTransformerであるphi-1.5を構築する。
- phi-1由来の7Bと約20Bの合成教科書風データからなる約300億トークンで訓練する;80%が合成データ、20%がphi-1データ。
- 訓練設定は定常学習率2e-4、ウェイトデカイ0.1、Adam(0.9,0.98)モーメント、fp16、DeepSpeed ZeRO-2、バッチサイズ2048を使用。
- フィルタ済みウェブデータ (~95Bトークン)から学習したphi-1.5-web-onlyと、ウェブ/合成/コードの40/20/40比の混合データセットで学習したphi-1.5-webを作成。
- 常識ベンチマーク(WinoGrande、ARC-Easy、ARC-Challenge、BoolQ、SIQA)、言語理解ベンチマーク(PIQA、Hellaswag、OpenBookQA、SQuAD、MMLU)、およびマルチステップ推論ベンチマーク(GSM8K、HumanEval/MBPP)におけるゼロショット・Few-shot性能を評価する。
- オープンソースのベースライン(Llama2-7B、Vicuna-13B、Falcon-7B など)と比較し、ウェブデータと合成データが性能に与える影響を報告する。
![Figure 1 : Benchmark results comparing phi-1.5 , its version enhanced with filtered web data phi-1.5-web , and other state-of-the-art open-source LLMs. Sizes range from phi-1.5 ’s 1.3 billion parameters (Falcon-RW-1.3B [ PMH + 23 ] ) to 10x larger models like Vicuna-13B [ ZCS + 23 ] , a fine-tuned v](https://ar5iv.labs.arxiv.org/html/2309.05463/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1主に合成教科書風データで訓練された1.3BパラメータのLLMは、どの程度まで能力を拡張し、より大規模なモデルに匹敵するまたは超えることができるか。
- RQ2合成/教科書品質データは、ウェブデータと比較して有害な内容や偏りの傾向を減らすか。
- RQ3フィルタ済みウェブデータの追加が、常識推論、コーディング、マルチステップ推論タスクに与える影響は何か。
- RQ4小さなモデルが、指示のファインチューニングやRLHFなしで、自然言語タスクとコーディングの高い性能を維持できるか。
- RQ5データの質と規模の実用的な意味は、能力の高いオープンソースLLMを開発する際にどのような影響を与えるか。
主な発見
- phi-1.5は、桁違いに大きいモデルと同等の常識的推論と言語タスクを満たし、マルチステップ推論では多くの非最前線LLMを上回る。
- phi-1.5-web-onlyは、フィルタ済みウェブデータで訓練され、既に同程度の規模のモデルを常識ベンチマークで上回っている。
- 合成データとphi-1データを組み合わせたphi-1-webでは、推論タスクの性能が5倍大きいモデルに近づく。
- phi-1.5は段階的思考と基本的なインコンテキスト学習能力を示す一方、幻覚や偏りも大きなモデルと類似している。ウェブデータベースのベースラインに比べ有害性は、合成データに焦点を当てているため低減。
- phi-1.5のオープンソース化は、インコンテキスト学習、解釈可能性、幻覚および偏った出力の緩和に関する研究を可能にする。
![Figure 2 : Safety scores computed on 13 demographics from ToxiGen [ HGP + 22 ] . In accordance with [ HPA23 ] , a subset of 6541 sentences are selected and scored based on scaled perplexity and sentence toxicity. Scores range from 0 to 1, where a higher score indicates the model is less likely to pr](https://ar5iv.labs.arxiv.org/html/2309.05463/assets/x2.png)
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。