[論文レビュー] Instances Need More Care: Rewriting Prompts for Instances with LLMs in the Loop Yields Better Zero-Shot Performance
PRoMPTd は各テスト実例ごとにプロンプトを書き換え、より具体的であいまいさのない完結な指示を提供することで、8つのデータセット全体でゼロショット性能を向上させ、解釈性と敵対的プロンプティングへの防御を可能にする。
Large language models (LLMs) have revolutionized zero-shot task performance, mitigating the need for task-specific annotations while enhancing task generalizability. Despite its advancements, current methods using trigger phrases such as "Let's think step by step" remain limited. This study introduces PRomPTed, an approach that optimizes the zero-shot prompts for individual task instances following an innovative manner of "LLMs in the loop". Our comprehensive evaluation across 13 datasets and 10 task types based on GPT-4 reveals that PRomPTed significantly outperforms both the naive zero-shot approaches and a strong baseline (i.e., "Output Refinement") which refines the task output instead of the input prompt. Our experimental results also confirmed the generalization of this advantage to the relatively weaker GPT-3.5. Even more intriguingly, we found that leveraging GPT-3.5 to rewrite prompts for the stronger GPT-4 not only matches but occasionally exceeds the efficacy of using GPT-4 as the prompt rewriter. Our research thus presents a huge value in not only enhancing zero-shot LLM performance but also potentially enabling supervising LLMs with their weaker counterparts, a capability attracting much interest recently. Finally, our additional experiments confirm the generalization of the advantages to open-source LLMs such as Mistral 7B and Mixtral 8x7B.
研究の動機と目的
- インスタンスレベルのプロンプト最適化がゼロショット LLM の性能を向上させる必要性を動機づける。
- 対照的デモンストレーションを用いて各テスト実例のプロンプトを再作成する PRoMPTd を提案する。
- 複数のデータセットとタスクタイプに渡ってインスタンスレベルの書き換えが正確さを改善することを示す。
- 書き換えたプロンプトが解釈性を高め、敵対的なプロンプティングに対する防御に役立つことを示す。
提案手法
- 元のプロンプト rho をテスト実例に対して書き換えられた rho* に写像するプロンプト書換え関数 F を定義する。
- 良い/悪いプロンプトと根拠を含む対照的デモ D を用いた少数ショットのインコース学習として、専用の書換え LLM M_rewrite によるプロンプト書換えを定式化する。
- ChatGPT を用いて生成されたタスクタイプ横断の10個のプロンプト書換えデモデータセット PRoMT を構築する(数学・論理・コード・コンテンツ)。
- PRoMPTd を適用し、各テスト実例について M_rewrite で rho* を生成し、全実験で GPT-4 の下で rho* を用いてゼロショットタスク LLM M_task を実行する。
- ベースライン( Zero-Shot および Zero-Shot CoT)とタスクレベルの派生 PRoMPTd(Instruction-only)に対して性能を評価する。
- 推論の根拠およびタスクタイプの信号が書換えにおいてどれほど重要かを知るためのアブレーションを評価する。
実験結果
リサーチクエスチョン
- RQ1 per-instance prompt rewriting がさまざまなタスクで標準的なゼロショットおよびゼロショットCoT のベースラインと比較して性能を改善するか?
- RQ2インスタンスレベルのプロンプトは数学的推論・論理的推論・コード生成タスクの性能にどう影響するか?
- RQ3PRoMPTd における書き換え理由とタスクタイプの指示を含めることの寄与はどの程度か?
- RQ4PRoMPTd は見たことのないタスクタイプにも一般化でき、敵対的プロンプティングへの防御に役立つか?
主な発見
| データセット | ゼロショット | ゼロショット CoT | PRoMPTd(指示のみ) | PRoMPTd |
|---|---|---|---|---|
| MATH | 48.857 | 56.571 | 57.429 | 66.000 (+8.6) |
| GSM-8K | 90.144 | 92.494 | 92.576 | 94.685 (+2.1) |
| Code Generation | 67.000 | - | 66.868 | 72.561 (+5.7) |
| Analytical Entailment | 65.714 | 80.000 | 82.857 | 82.857 (+0.0) |
| Known-Unknowns | 86.957 | 86.957 | 56.522 | 89.130 (+2.2) |
| Date Understanding | 69.648 | 84.660 | 73.713 | 84.824 (+0.2) |
| Anachronisms | 82.173 | 66.087 | 80.000 | 83.674 (+1.5) |
| Sports Understanding | 80.025 | 80.996 | 81.110 | 82.900 (+1.8) |
- PRoMPTd は eight datasets 全てで素朴なゼロショットプロンプトを一貫して上回る。
- MATH ではベースラインより約10%の絶対的な改善を、HumanEval コード生成では約5%の絶対的改善。
- PRoMPTd(指示のみ)はタスクレベルの書換えを上回るが、個々の実例ごとの書換えほど堅牢ではない。
- アブレーションは、書換え理由とタスクタイプ信号の両方が最適な性能にとって重要であることを示している。
- 人間の評価では、書き換えられたプロンプトはより具体的であいまいさがなく、完結で、構造化され、幻覚が最小限だった。
- PRoMPTd は見たことのないタスクタイプにも一般化でき、敵対的プロンプティングへの防御にも役立つ可能性がある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。