[論文レビュー] Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction
論文は、5W3HベースのPSP(PPS)構造化プロンプトフレームワークを評価し、複数のモデルと領域において人間とAIの相互作用でのユーザー意図との整合を改善することを示す。レンダリングされたPPSを単純 prompting および生JSONと比較。
Natural language prompts often suffer from intent transmission loss: the gap between what users actually need and what they communicate to AI systems. We evaluate PPS (Prompt Protocol Specification), a 5W3H-based framework for structured intent representation in human-AI interaction. In a controlled three-condition study across 60 tasks in three domains (business, technical, and travel), three large language models (DeepSeek-V3, Qwen-Max, and Kimi), and three prompt conditions - (A) simple prompts, (B) raw PPS JSON, and (C) natural-language-rendered PPS - we collect 540 AI-generated outputs evaluated by an LLM judge. We introduce goal_alignment, a user-intent-centered evaluation dimension, and find that rendered PPS outperforms both simple prompts and raw JSON on this metric. PPS gains are task-dependent: gains are large in high-ambiguity business analysis tasks but reverse in low-ambiguity travel planning. We also identify a measurement asymmetry in standard LLM evaluation, where unconstrained prompts can inflate constraint adherence scores and mask the practical value of structured prompting. A preliminary retrospective survey (N = 20) further suggests a 66.1% reduction in follow-up prompts required, from 3.33 to 1.13 rounds. These findings suggest that structured intent representations can improve alignment and usability in human-AI interaction, especially in tasks where user intent is inherently ambiguous.
研究の動機と目的
- 構造化された意図表現がユーザー目標とAI出力の整合性に与える影響を検討する。
- 5W3HベースのPPSプロンプトと単純プロンプトおよび生JSONの性能を、タスクと領域を跨いで定量化する。
- LLM評価における利得のタスク依存性と潜在的な測定バイアスを調査する。
- PPSが対話効率に与える影響についての予備的なユーザー調査を提供する。
提案手法
- PPS(5W3Hベースのフレームワーク)を用いて、意図を構造化プロンプトに表現する。
- 3領域で60タスクの管理された3条件研究を実施する。
- 3つのプロンプト条件(単純プロンプト、生JSONのPPS、ナチュラルランゲージでレンダ링されたPPS)下で3つのLLMから540の出力を評価する。
- ユーザー意図中心の整合性を評価するゴール整合性指標を開発する。
- 出力の整合性と有用性を評価するためにLLM判定者を用いる。
- フォローアッププロンプトの予備回顧的調査(N=20)を含める。
実験結果
リサーチクエスチョン
- RQ1レンダリングされたPPSは、単純プロンプトや生JSONと比較して目標整合性を達成する上でどうか。
- RQ2PPSの利点はタスクタイプと領域(ビジネス、技術、旅行)を超えて一貫しているか。
- RQ3構造化プロンプトは標準的なLLMevaluationのバイアスを生じさせるのか、または露呈させるのか。
- RQ4PPSは追跡指示(フォローアッププロンプト)によるユーザーの労力にどのような影響を与えるのか。
主な発見
- レンダリングされたPPSは、ゴール整合性指標で単純プロンプトおよび生JSONを上回る。
- PPSの利得はタスク依存的である:高い曖昧性を伴うビジネス分析タスクでは大きく、低い曖昧性の旅行計画では逆効果となる。
- 標準のLLM評価には測定の非対称性があり、制約のないプロンプトは制約遵守スコアを過大評価し得る。
- 予備調査(N=20)はフォローアッププロンプトを66.1%減少させることを示唆し、3.33回から1.13回へ減少。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。