[論文レビュー] Prompt Engineering a Prompt Engineer
tldr: PE2 はメタプロンプトを構築し、LLM の自動プロンプトエンジニアリングを導くことで、従来のベースラインより良いプロンプトを達成し、math reasoning ベンチマークにおけるゼロショットの CoT を超える。反事実タスクとプロダクションプロンプト全体で強力な性能を示し、解釈可能なプロンプト編集を伴う。
Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models on customized tasks. It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that large language models can be meta-prompted to perform automatic prompt engineering, we argue that their potential is limited due to insufficient guidance for complex reasoning in the meta-prompt. We fill this gap by infusing into the meta-prompt three key components: detailed descriptions, context specification, and a step-by-step reasoning template. The resulting method, named PE2, exhibits remarkable versatility across diverse language tasks. It finds prompts that outperform "let's think step by step" by 6.3% on MultiArith and 3.1% on GSM8K, and outperforms competitive baselines on counterfactual tasks by 6.9%. Further, we show that PE2 can make targeted and highly specific prompt edits, rectify erroneous prompts, and induce multi-step plans for complex tasks.
研究の動機と目的
- 自動プロンプトエンジニアリングを、構造化されたガイダンスを必要とする複雑な推論タスクとして動機づける。
- PE2 というメタプロンプトを、段階的推論とプロンプトエンジニアリングの文脈を引き出す構成要素として開発する。
- メタプロンプトに、最適化の概念(バッチサイズ、ステップサイズ、モーメンタム)を口頭で表現させ、プロンプト提案を導く。
- PE2 を数学的推論データセット、反事象タスク、プロダクションプロンプトで評価し、多様性を測る。
- PE2 を、ベースラインの自動プロンプトエンジニアリング手法および人間による影響を受けた初期化と比較する。
提案手法
- プロンプトエンジニアリングを、デベセットの性能を最大化するプロンプトを見つけることを目的とした最適化問題としてフレーミングする。
- メタプロンプトの構成要素を導入する:段階的推論テンプレート、文脈指定、2 段階のタスク説明。
- メタプロンプトに、最適化機器の概念(バッチサイズ、ステップサイズ、モーメンタム)を組み込み、バリエーションをテストする。
- 失敗から新しいプロンプトを生成するためのプロポーザルモデルを用い、Top-k 選択によるバックトラッキング探索を適用する。
- 複数のデータセットと設定で、プロポーザルモデルとして GPT-4、タスクモデルとして text-davinci-003 を用いて評価する。
- 各メタプロンプト構成要素と初期化戦略の影響を評価するアブレーションを実施する。
実験結果
リサーチクエスチョン
- RQ1メタプロンプトは、プロンプトエンジニアリングに特化して既存のベースラインより自動プロンプト生成を改善できるか?
- RQ2メタプロンプトのどの構成要素が提案するプロンプトの品質を最も効果的に高めるか?
- RQ3PE2 は数学的推論のベンチマークと反事象タスクにおいて、従来の自動プロンプトエンジニアリング手法と比較してどう動作するか?
- RQ4PE2 はプロダクションプロンプトや実世界の長いプロンプトに対して頑健か?
- RQ5現行の LLM 能力の下で、PE2 が示す制限と失敗モードは何か?
主な発見
- PE2 は MultiArith でゼロショットの連鎖的思考プロンプトを 6.3 ポイント、GSM8K を 3.1 ポイント上回る(タスクモデルとして text-davinci-003 を使用)。
- PE2 は Iterative APE および APO のベースラインを複数の設定とタスクで上回る。
- 3 つのメタプロンプト構成要素(2段階のタスク説明、段階的推論テンプレート、文脈指定)は、プロンプトエンジニアリングの質を大幅に改善しばらつきを減少させる。
- PE2 は反事象タスクと長いプロダクションプロンプトの最適化で強力な性能を示す。
- PE2 はターゲットを絞ったプロンプト編集を生成し、誤りや不完全なプロンプトを修正することができ、時には新規で部分的に正確な反事象ルールを導出する。
- 初期化の品質が PE2 の性能に強く影響し、帰納法ベースの初期化が競争力のある結果を生む。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。