[論文レビュー] Conversational Prompt Engineering
会話型プロンプト設計(CPE)は、 unlabeled データから LLM 用の個別プロンプトを作成するチャットベースのツールで、少数ショットプロンプトを生成し、長い少数ショットプロンプトと同等の効果を発揮しつつトークンを節約することが多い。要約に関するユーザ研究は、CPE が繰り返しタスクにおいて、長いプロンプトを使わずともユーザーの好みに合うゼロショットプロンプトへ置換可能であることを示した。
Prompts are how humans communicate with LLMs. Informative prompts are essential for guiding LLMs to produce the desired output. However, prompt engineering is often tedious and time-consuming, requiring significant expertise, limiting its widespread use. We propose Conversational Prompt Engineering (CPE), a user-friendly tool that helps users create personalized prompts for their specific tasks. CPE uses a chat model to briefly interact with users, helping them articulate their output preferences and integrating these into the prompt. The process includes two main stages: first, the model uses user-provided unlabeled data to generate data-driven questions and utilize user responses to shape the initial instruction. Then, the model shares the outputs generated by the instruction and uses user feedback to further refine the instruction and the outputs. The final result is a few-shot prompt, where the outputs approved by the user serve as few-shot examples. A user study on summarization tasks demonstrates the value of CPE in creating personalized, high-performing prompts. The results suggest that the zero-shot prompt obtained is comparable to its - much longer - few-shot counterpart, indicating significant savings in scenarios involving repetitive tasks with large text volumes.
研究の動機と目的
- ラベル付きデータやシードプロンプトの必要を取り除くことで、プロンプト設計の負担を軽減する。
- 対話型のチャットを通じてタスク要件を明確化・洗練できるようにする。
- ユーザーの好みと承認済み出力を取り入れた少数ショットプロンプトを生成する。
- 要約タスクにおける CPE の有効性とトークン節約の可能性を示す。
提案手法
- ユーザー・システム・モデルの三者対話設計を用い、Llama-3-70B 上でプロンプトを構築。
- 長い文脈やサイドチャットでプロンプトをテストするための文脈管理とペーストごとのフィルタリング。
- サイドチャットでの思考過程を用いたチャット駆動型の指示洗練と出力改善。
- ユーザーが指示と出力を承認した後、CPE FS(少数ショット)プロンプトを作成。
- ユーザーのフィードバックに基づく反復的なプロンプト洗練で CPE FS プロンプトへ収束。
実験結果
リサーチクエスチョン
- RQ1CPE は、ラベルなしデータのみを用いて、特定のタスクに対して効果的な個別プロンプトを生成できるか?
- RQ2CPE は長い少数ショットプロンプトの必要性を減らしつつ、出力品質を維持できるか?
- RQ3実務タスクにおける CPE の有用性・使いやすさ・収束時間をユーザーはどのように認識するか?
主な発見
| 指標 | 平均スコア/値 |
|---|---|
| CPE指示への満足度 | 4.6 |
| 思考プロセスによる利得 | 4.5 |
| チャットの快適さ | 4.8 |
| 収束時間 | 3.8 |
- 12 名の参加者を対象としたユーザ研究で、CPE プロンプトはベースラインプロンプトより好まれた。
- CPE によって生成されたゼロショットプロンプトは、長い少数ショットの対になるものと同等で、繰り返しタスクのトークン削減を可能にした。
- 平均収束回数は32ターン、最終プロンプト到達まで約25分。
- 対話の3分の2で出力強化フェーズが用いられ、フィードバックによる大幅な改良を示した。
- 全体のチャットを通じて最終指示はしばしば大幅に変更され、初期指示からの平均文字距離は96.3。
- CPE ZS と CPE FS の比較では、最も評価された割合は 53% 対 47% で、差は統計的に有意ではなかった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。