Skip to main content
QUICK REVIEW

[論文レビュー] Textbooks Are All You Need II: phi-1.5 technical report

Yuanzhi Li, Sébastien Bubeck|arXiv (Cornell University)|Sep 11, 2023
Topic Modeling被引用数 48
ひとこと要約

主に合成教科書風データで訓練された1.3BパラメータのTransformer(phi-1.5)は、より大規模なモデルと同等の常識・言語理解を達成し、マルチステップ推論やコーディングに卓越する。指示追従、偏り、幻覚に関する研究を支援するためのオープンソース公開を伴う。

ABSTRACT

We continue the investigation into the power of smaller Transformer-based language models as initiated by extbf{TinyStories} -- a 10 million parameter model that can produce coherent English -- and the follow-up work on extbf{phi-1}, a 1.3 billion parameter model with Python coding performance close to the state-of-the-art. The latter work proposed to use existing Large Language Models (LLMs) to generate ``textbook quality" data as a way to enhance the learning process compared to traditional web data. We follow the ``Textbooks Are All You Need" approach, focusing this time on common sense reasoning in natural language, and create a new 1.3 billion parameter model named extbf{phi-1.5}, with performance on natural language tasks comparable to models 5x larger, and surpassing most non-frontier LLMs on more complex reasoning tasks such as grade-school mathematics and basic coding. More generally, extbf{phi-1.5} exhibits many of the traits of much larger LLMs, both good -- such as the ability to ``think step by step" or perform some rudimentary in-context learning -- and bad, including hallucinations and the potential for toxic and biased generations -- encouragingly though, we are seeing improvement on that front thanks to the absence of web data. We open-source extbf{phi-1.5} to promote further research on these urgent topics.

研究の動機と目的

  • 人工教科書風データを用いて、小規模LLMが高いレベルの能力をどのように獲得できるかを調査する。
  • phi-1.5の常識的推論、言語タスク、およびマルチステップ推論の性能を、より大規模なモデルと比較して評価する。
  • データの質と規模の役割、およびフィルタリング済みウェブデータの使用の影響を検討する。
  • ウェブ訓練済みベースラインと比較したときの、phi-1.5の安全性・有害性・偏りの特性を検討する。
  • インコンテキスト学習、解釈性、安全性に関する研究を可能にするため、モデルをオープンソース化する。

提案手法

  • 24層、32ヘッド、文脈長2048を持つ1.3BパラメータのTransformerであるphi-1.5を構築する。
  • phi-1由来の7Bと約20Bの合成教科書風データからなる約300億トークンで訓練する;80%が合成データ、20%がphi-1データ。
  • 訓練設定は定常学習率2e-4、ウェイトデカイ0.1、Adam(0.9,0.98)モーメント、fp16、DeepSpeed ZeRO-2、バッチサイズ2048を使用。
  • フィルタ済みウェブデータ (~95Bトークン)から学習したphi-1.5-web-onlyと、ウェブ/合成/コードの40/20/40比の混合データセットで学習したphi-1.5-webを作成。
  • 常識ベンチマーク(WinoGrande、ARC-Easy、ARC-Challenge、BoolQ、SIQA)、言語理解ベンチマーク(PIQA、Hellaswag、OpenBookQA、SQuAD、MMLU)、およびマルチステップ推論ベンチマーク(GSM8K、HumanEval/MBPP)におけるゼロショット・Few-shot性能を評価する。
  • オープンソースのベースライン(Llama2-7B、Vicuna-13B、Falcon-7B など)と比較し、ウェブデータと合成データが性能に与える影響を報告する。
Figure 1 : Benchmark results comparing phi-1.5 , its version enhanced with filtered web data phi-1.5-web , and other state-of-the-art open-source LLMs. Sizes range from phi-1.5 ’s 1.3 billion parameters (Falcon-RW-1.3B [ PMH + 23 ] ) to 10x larger models like Vicuna-13B [ ZCS + 23 ] , a fine-tuned v
Figure 1 : Benchmark results comparing phi-1.5 , its version enhanced with filtered web data phi-1.5-web , and other state-of-the-art open-source LLMs. Sizes range from phi-1.5 ’s 1.3 billion parameters (Falcon-RW-1.3B [ PMH + 23 ] ) to 10x larger models like Vicuna-13B [ ZCS + 23 ] , a fine-tuned v

実験結果

リサーチクエスチョン

  • RQ1主に合成教科書風データで訓練された1.3BパラメータのLLMは、どの程度まで能力を拡張し、より大規模なモデルに匹敵するまたは超えることができるか。
  • RQ2合成/教科書品質データは、ウェブデータと比較して有害な内容や偏りの傾向を減らすか。
  • RQ3フィルタ済みウェブデータの追加が、常識推論、コーディング、マルチステップ推論タスクに与える影響は何か。
  • RQ4小さなモデルが、指示のファインチューニングやRLHFなしで、自然言語タスクとコーディングの高い性能を維持できるか。
  • RQ5データの質と規模の実用的な意味は、能力の高いオープンソースLLMを開発する際にどのような影響を与えるか。

主な発見

  • phi-1.5は、桁違いに大きいモデルと同等の常識的推論と言語タスクを満たし、マルチステップ推論では多くの非最前線LLMを上回る。
  • phi-1.5-web-onlyは、フィルタ済みウェブデータで訓練され、既に同程度の規模のモデルを常識ベンチマークで上回っている。
  • 合成データとphi-1データを組み合わせたphi-1-webでは、推論タスクの性能が5倍大きいモデルに近づく。
  • phi-1.5は段階的思考と基本的なインコンテキスト学習能力を示す一方、幻覚や偏りも大きなモデルと類似している。ウェブデータベースのベースラインに比べ有害性は、合成データに焦点を当てているため低減。
  • phi-1.5のオープンソース化は、インコンテキスト学習、解釈可能性、幻覚および偏った出力の緩和に関する研究を可能にする。
Figure 2 : Safety scores computed on 13 demographics from ToxiGen [ HGP + 22 ] . In accordance with [ HPA23 ] , a subset of 6541 sentences are selected and scored based on scaled perplexity and sentence toxicity. Scores range from 0 to 1, where a higher score indicates the model is less likely to pr
Figure 2 : Safety scores computed on 13 demographics from ToxiGen [ HGP + 22 ] . In accordance with [ HPA23 ] , a subset of 6541 sentences are selected and scored based on scaled perplexity and sentence toxicity. Scores range from 0 to 1, where a higher score indicates the model is less likely to pr

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。