[論文レビュー] A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications
LLMsとVLMsのためのプロンプトエンジニアリング技術をアプリケーション分野別に整理し、方法、モデル、データセット、および長所と短所を29+ approachesにわたって詳述した体系的調査。
Prompt engineering has emerged as an indispensable technique for extending the capabilities of large language models (LLMs) and vision-language models (VLMs). This approach leverages task-specific instructions, known as prompts, to enhance model efficacy without modifying the core model parameters. Rather than updating the model parameters, prompts allow seamless integration of pre-trained models into downstream tasks by eliciting desired model behaviors solely based on the given prompt. Prompts can be natural language instructions that provide context to guide the model or learned vector representations that activate relevant knowledge. This burgeoning field has enabled success across various applications, from question-answering to commonsense reasoning. However, there remains a lack of systematic organization and understanding of the diverse prompt engineering methods and techniques. This survey paper addresses the gap by providing a structured overview of recent advancements in prompt engineering, categorized by application area. For each prompting approach, we provide a summary detailing the prompting methodology, its applications, the models involved, and the datasets utilized. We also delve into the strengths and limitations of each approach and include a taxonomy diagram and table summarizing datasets, models, and critical points of each prompting technique. This systematic analysis enables a better understanding of this rapidly developing field and facilitates future research by illuminating open challenges and opportunities for prompt engineering.
研究の動機と目的
- 構造化された、アプリケーション中心のプロンプトエンジニアリング技術の分類法をLLMsとVLMsのために提供する。
- 各手法について prompting methodologies、応用、モデル、データセットを要約する。
- 強み、制限、および今後の研究課題を評価し、今後の研究を導く。
提案手法
- 手法をアプリケーション領域別に整理する(新規タスク、推論、幻覚の低減、ユーザーインターフェイス、ファインチューニング、知識ベースの推論など)。
- prompting methodologiesを説明する(zero-shot、few-shot、CoT、Auto-CoT、Self-Consistency、ToT、GoT、S2A、CoVe、CoN、CoK、ReAct、RAG、CoTの派生など)。
- モデル/データセットの対応表と性能ハイライトを提供する(例:CoTとPaLM 540Bが数学/常識ベンチマークで90.2%の精度を達成)。
- 各手法の長所/短所と実践上の考慮事項を議論する。
- 技術間のデータセット、モデル、要点を対応づけた分類図と要約表を含める。

実験結果
リサーチクエスチョン
- RQ1LLMsとVLMs全体で使用される主要なプロンプトエンジニアリング手法は何か。
- RQ2 prompting methodsはアプリケーション領域とタスクタイプによってどう異なるか。
- RQ3評価に用いられるデータセットとモデルは何で、それらの報告された強みと限界は何か。
- RQ4実務におけるプロンプトエンジニアリングを進展させるための未解決の課題と機会は何か。
主な発見
- 調査はゼロショットから高度な手法(Tree-of-ThoughtsやGraph-of-Thoughtsなど)までを網羅し、29件以上の prompting 技法をカタログ化している。
- CoT promptingとSelf-Consistency、ToT、GoT、LogiCoT、CoS、ReAct、CoVe、CoN、CoK などの強化を組み合わせると、複数のベンチマークで顕著な向上をもたらす(例:CoTとPaLM 540Bは数学/常識ベンチマークで90.2%の精度を達成)。
- Retrieval-augmentedおよびツール使用アプローチ(RAG、ReAct、CoVe、CoN、ART)は幻覚と事実性を改善し、QA、事実検証、オープンドメインタスクでの改善が示されている。
- コード生成と実行を伴う prompting(Scratchpad、PoT、SCoT、CoC)は推論と正確性を向上させ、いくつかの設定でCoTを上回る。
- 不確実性、感情/トーン、効率、メタ認知、ユーザーインタラクションといった領域を含む幅広い技術が存在し、成熟した多面的なプロンプトエンジニアリングの風景を示している。
- 本論文は分類図と、技法ごとにデータセット、モデル、プロンプトを整理した統合表を提供している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。