Skip to main content
QUICK REVIEW

[論文レビュー] The Unreasonable Effectiveness of Eccentric Automatic Prompts

Rick Battle, Teja Gollapudi|arXiv (Cornell University)|Feb 9, 2024
Formal Methods in Verification被引用数 13
ひとこと要約

この論文は“ポジティブシンキング”のシステムメッセージがLLMに与える影響を定量化し、自動プロンプト最適化がGSM8K全般で手動プロンプトを上回る傾向を示し、モデル固有の特性が顕著である。

ABSTRACT

Large Language Models (LLMs) have demonstrated remarkable problem-solving and basic mathematics abilities. However, their efficacy is highly contingent on the formulation of the prompt. This study endeavors to quantify the influence of incorporating "positive thinking" into the system message of the prompt, then compare that to systematic prompt optimization. We assess the performance of 60 combinations of system message snippets, tested with and without Chain of Thought prompting, across three models with parameters ranging from 7 to 70 billion on the GSM8K dataset. Our findings reveal that results do not universally generalize across models. In most instances, the inclusion of "positive thinking" prompts positively affected model performance. Notably, however, Llama2-70B exhibited an exception when not utilizing Chain of Thought, as the optimal system message was found to be none at all. Given the combinatorial complexity, and thus computation time, of experimenting with hand-tuning prompts for large black-box models, we then compared the performance of the best "positive thinking" prompt against the output of systematic prompt optimization. We show that employing an automated prompt optimizer emerges as the most effective method for enhancing performance, even when working with smaller open-source models. Additionally, our findings reveal that the highest-scoring, automatically-optimized prompt exhibits a degree of peculiarity far beyond expectations.

研究の動機と目的

  • 楽観的なシステムメッセージ(“positive thinking”)を追加することが多段階の数学問題に対するLLMの性能にどのような影響を与えるか評価する。
  • 性能と一般化の観点で、手動プロンプトと自動プロンプト最適化を比較する。
  • GSM8Kにおいて、効果がモデルやプロンプト戦略によって異なるかを評価する。

提案手法

  • Chain of Thought(CoT)あり/なしで、60のシステムメッセージプロンプト組み合わせ(5つのオープナー × 3つのタスク記述 × 4つのクローザー)をテストする。
  • GSM8KでExact Match(EM)スコアリングを用いて、3モデル(Mistral-7B、Llama2-13B、Llama2-70B)で10–100問のサブセットを評価する。
  • 出力形式を整えるために、4つの例 prompts を用いたIn-Context Learningを使用する。
  • 同一の質問サブセット上で、手動のpositive-thinking promptsとDSPy自動プロンプト最適化を比較する。
  • 最適化セットと評価セットの間のパフォーマンス差(デルタ)を通じて一般化を分析する。
  • 自動最適化によって生成される著しく異なるプロンプトを強調する。

実験結果

リサーチクエスチョン

  • RQ1システムプロンプトに“positive thinking”の断片を追加することは、モデルを超えてGSM8Kの数学問題解決能力を改善するか?
  • RQ2平均的な性能と一般化の観点で、自動プロンプト最適化は手動で調整された“positive thinking” promptsとどのように比較されるか?
  • RQ3 prompting戦略(CoT、プロンプト不変性など)の有効性においてモデル固有の傾向は観察されるか?
  • RQ4組合せ的なプロンプトの変化を考慮した場合、巨大なブラックボックスモデルへのプロンプト付けの実践的影響は何か?

主な発見

  • 自動プロンプト最適化は、モデルや問題数を問わず、手動で調整された“positive thinking” promptsの性能と概ね同等かそれ以上である。
  • いくつかの例外: Mistral-7Bで10–25問、Llama2-70Bで10問のとき manual promptsが自動最適化を上回る。
  • Llama2-13BとLlama2-70Bでは、自動最適化プロンプトがサイズを超えて一般化エラー(delta)が低く、より良い一般化を示唆する。
  • CoTなしではプロンプトの分散は低く、“positive thinking”はしばしば性能を改善しない; CoTありではプロンプトがより大きな利益と変動性を生む傾向。
  • 最も高得点の自動生成プロンプトは非常に独創的(例:Star Trekをテーマにした接頭辞)ですが、それでも人手のプロンプトを上回る。
  • 再現性の懸念を指摘: 出版社が報告するスコアは、同一のプロンプトで得られる結果と大きく異なる可能性がある。再現のためにはプロンプトを公開する必要がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。