Skip to main content
QUICK REVIEW

[論文レビュー] Orca: Progressive Learning from Complex Explanation Traces of GPT-4

Subhabrata Mukherjee, Arindam Mitra|arXiv (Cornell University)|Jun 5, 2023
Explainable Artificial Intelligence (XAI)被引用数 67
ひとこと要約

Orca は 13B モデルで、説明豊富な信号と段階的な教師指導を用いて GPT-4 の推論を模倣することを学習し、Big-Bench Hard で ChatGPT と同等の性能を達成し、AGIEval および専門試験で強いパフォーマンスを示しつつ、GPT-4 にはまだ及ばない。

ABSTRACT

Recent research has focused on enhancing the capability of smaller models through imitation learning, drawing on the outputs generated by large foundation models (LFMs). A number of issues impact the quality of these models, ranging from limited imitation signals from shallow LFM outputs; small scale homogeneous training data; and most notably a lack of rigorous evaluation resulting in overestimating the small model's capability as they tend to learn to imitate the style, but not the reasoning process of LFMs. To address these challenges, we develop Orca (We are working with our legal team to publicly release a diff of the model weights in accordance with LLaMA's release policy to be published at https://aka.ms/orca-lm), a 13-billion parameter model that learns to imitate the reasoning process of LFMs. Orca learns from rich signals from GPT-4 including explanation traces; step-by-step thought processes; and other complex instructions, guided by teacher assistance from ChatGPT. To promote this progressive learning, we tap into large-scale and diverse imitation data with judicious sampling and selection. Orca surpasses conventional state-of-the-art instruction-tuned models such as Vicuna-13B by more than 100% in complex zero-shot reasoning benchmarks like Big-Bench Hard (BBH) and 42% on AGIEval. Moreover, Orca reaches parity with ChatGPT on the BBH benchmark and shows competitive performance (4 pts gap with optimized system message) in professional and academic examinations like the SAT, LSAT, GRE, and GMAT, both in zero-shot settings without CoT; while trailing behind GPT-4. Our research indicates that learning from step-by-step explanations, whether these are generated by humans or more advanced AI models, is a promising direction to improve model capabilities and skills.

研究の動機と目的

  • 大規模ファウンデーションモデルの模倣と推論プロセスの学習との差を埋める。
  • 説明豊富な信号とシステム指示を活用して、小規模モデルで段階的学習を可能にする。
  • ゼロショット推論とオープンエンド生成能力を向上させるために、訓練データを拡大・多様化する。
  • Orca をオープンエンド生成、推論ベンチマーク、安全性、専門試験の観点で評価する。

提案手法

  • GPT-4 の説明痕跡を用いて ⟨query, response⟩ ペアを強化し、推論過程を明らかにする。
  • システム指示を用いて説明と段階的思考過程を引き出す。
  • 大規模で多様なタスク集合として FLAN-v2(Flan 2022)を活用し、ゼロショットのプロンプトをサンプリングする。
  • 2 段階の教師戦略:まず 5M の ChatGPT 増強指示で訓練し、次に 1M の GPT-4 増強指示でファインチューニングする。
  • LLaMA 風の BPE トークン化と 32,001 トークンの語彙で訓練する;効率化のためパッキングを使用する。

実験結果

リサーチクエスチョン

  • RQ1説明チューニングが、小型モデルに大規模 LFM の推論プロセスを学習させることができるか。
  • RQ2中間教師(ChatGPT → GPT-4)による段階的学習は、ゼロショット推論とタスク性能を向上させるか。
  • RQ313B モデルは複雑な推論ベンチマークと専門試験で、ChatGPT および GPT-4 にどれだけ近づけるか。

主な発見

  • Orca は BigBench Hard (BBH) の複雑なゼロショット推論で Vicuna-13B を 100% 以上上回る。
  • Orca は AGIEval をベースラインと比較して 42% の改善を示す。
  • Orca は CoT なしのゼロショット設定で BBH で ChatGPT と同等のパフォーマンスを達成する。
  • Orca は SAT、LSAT、GRE、GMAT でゼロショット・MCQ の競争力のあるパフォーマンスを示し、最適化されたシステムメッセージとの差は小さく(4点)。
  • Orca は GPT-4 には及ばないものの、説明ベースの学習を通じて強力な推論と理解の改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。