Skip to main content
QUICK REVIEW

[論文レビュー] Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models

Zhihong Shao, Yeyun Gong|arXiv (Cornell University)|Feb 1, 2023
Topic Modeling被引用数 10
ひとこと要約

シンセティック prompting は、少数のシード事例を用いて多くの自己合成のチェーンオブソート(CoT)サンプルを backward-forward planning によって生成し、次に多様で複雑なデモを選択して LLM の推論を改善する。これにより、最新手法に対して最大で絶対値で 15.6% の改善を達成。

ABSTRACT

Large language models can perform various reasoning tasks by using chain-of-thought prompting, which guides them to find answers through step-by-step demonstrations. However, the quality of the prompts depends on the demonstrations given to the models, and creating many of them by hand is costly. We introduce Synthetic prompting, a method that leverages a few handcrafted examples to prompt the model to generate more examples by itself, and selects effective demonstrations to elicit better reasoning. Our method alternates between a backward and forward process to generate new examples. The backward process generates a question that match a sampled reasoning chain, so that the question is solvable and clear. The forward process produces a more detailed reasoning chain for the question, improving the quality of the example. We evaluate our method on numerical, symbolic, and algorithmic reasoning tasks, and show that it outperforms existing prompting techniques.

研究の動機と目的

  • デモのキュレーションコストを自動的に追加の例を生成することで削減する動機付け。
  • モデルが問題とトピック語、対象の複雑さ、推論チェーンを条件づけて質問を生成し、デモを豊かにする backwards-forward 合成ループを開発する。
  • 推論のために多様で有用なデモを選ぶためのクラスタ内の複雑さベースの選択を提案する。
  • 数値、記号、アルゴリズム的推論ベンチマークでの有効性を示す。

提案手法

  • シードデモンストレーションを用いて、LLM に backward synthesis(トピック語、それに対する複雑さ、推論チェーンを条件にした質問を生成)および forward synthesis(合成した質問の洗練された推論チェーンを生成)を実行させる。
  • 停止基準と品質フィルターを実装する(例:重複排除、トピック網羅性の確保、解けることの保証)。
  • 合成デモンストレーションを意味的空間(Sentence-BERT)でクラスタリングし、推論のために各クラスタから最も複雑な例を選択する。
  • PaLスタイルの推論チェーン(構造化コード)を合成に採用し、回答はモデル出力から抽出するのではなくコードを実行して得る。
  • 複数の推論チェーンをサンプリングして回答の信頼度を測定し、最多決定で合成質問をフィルタする(合成時のみ使用、推論では使用しない)。
  • 数値、記号、アルゴリズム的タスクで評価し、直接 prompting、CoT prompting、PaL prompting と比較する。

実験結果

リサーチクエスチョン

  • RQ1自己合成デモンストレーションは、少数のシード例から派生し、シード例のみを使用する場合より LLM の推論を改善するか。
  • RQ2クラスタ内の複雑さベースの選択は、推論のためにより多様で有用なデモを生むか。
  • RQ3シンセティック prompting は、最新の prompting 手法と比較して数値、記号、アルゴリズム推論タスクでどのように性能を発揮するか。

主な発見

  • シンセティック prompting は、いくつかのデータセットで最先端 PaL prompting に対して最大で絶対値 15.6% のゲインを生む。
  • バニラのシンセティック prompting は、複雑さの制御と多様性の欠如のため PaL prompting より劣ることが多いが、合成時の条件付けが結果を改善する。
  • クラスタ内の複雑さベースの選択は他のスキームを一貫して上回り、多様性と高い推論複雑性の価値を示す。
  • 合成デモは一般にバニラのシンセティックプロンプトより複雑でトピックに適合しており、選択されたデモはほとんど正確で有用。
  • 訓練データから慎重に選択されたゴールドデモンストレーションと比較すると、シンセティックデモンストレーションは、シード例が限られている場合でも性能に近づくか、それを超えることがある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。