[論文レビュー] PEEM: Prompt Engineering Evaluation Metrics for Interpretable Joint Evaluation of Prompts and Responses
PEEMはLLMsにおけるプロンプトと応答を共同評価する統一的で解釈可能な枠組みを提示し、9軸にわたるリッカート尺度のスコアと基準根拠の理論を出力し、プロンプト最適化の有用性を実証する。
Prompt design is a primary control interface for large language models (LLMs), yet standard evaluations largely reduce performance to answer correctness, obscuring why a prompt succeeds or fails and providing little actionable guidance. We propose PEEM (Prompt Engineering Evaluation Metrics), a unified framework for joint and interpretable evaluation of both prompts and responses. PEEM defines a structured rubric with 9 axes: 3 prompt criteria (clarity/structure, linguistic quality, fairness) and 6 response criteria (accuracy, coherence, relevance, objectivity, clarity, conciseness), and uses an LLM-based evaluator to output (i) scalar scores on a 1-5 Likert scale and (ii) criterion-specific natural-language rationales grounded in the rubric. Across 7 benchmarks and 5 task models, PEEM's accuracy axis strongly aligns with conventional accuracy while preserving model rankings (aggregate Spearman rho about 0.97, Pearson r about 0.94, p < 0.001). A multi-evaluator study with four models shows consistent relative judgments (pairwise rho = 0.68-0.85), supporting evaluator-agnostic deployment. Beyond alignment, PEEM captures complementary linguistic failure modes and remains informative under prompt perturbations: prompt-quality trends track downstream accuracy under iterative rewrites, semantic adversarial manipulations induce clear score degradation, and meaning-preserving paraphrases yield high stability (robustness rate about 76.7-80.6%). Finally, using only PEEM scores and rationales as feedback, a zero-shot prompt rewriting loop improves downstream accuracy by up to 11.7 points, outperforming supervised and RL-based prompt-optimization baselines. Overall, PEEM provides a reproducible, criterion-driven protocol that links prompt formulation to response behavior and enables systematic diagnosis and optimization of LLM interactions.
研究の動機と目的
- 最終回答の正確さだけでなく、応答品質と同様にプロンプト品質を捉えることでプロンプト設計の評価の必要性を動機付ける。
- 3つのプロンプト基準と6つの応答基準からなる9軸のルーブリックを提案し、プロンプト–応答の相互作用を診断する。
- LLMベースの評価者を開発し、スカラー値とルーブリックに基づく自然言語の理論を出力する。
- PEEMが従来の正確さと一致しつつ、より豊かな診断と評価者間の頑健性を実現することを示す。
- ゼロショット評価の有効性を実証し、PEEMフィードバックを用いてプロンプト最適化を促進する。
提案手法
- 9軸のPEEMルーブリックを定義する:3つのプロンプト基準(Clarity/Structure, Linguistic Quality, Fairness)と6つの応答基準(Accuracy, Coherence, Relevance, Objectivity, Clarity, Conciseness)。
- 各基準について、LLM評価者を用いて1–5のリッカートスコアと根拠となる自然言語の理論を生成する。
- 総合プロンプトスコアと総合応答スコアを、それぞれの基準スコアの平均として計算する(S_prompt, S_response)。
- 単一の評価モデル(デフォルトGPT-4o-mini)によるゼロショット設定で運用するが、クロス評価者分析を通じて評価者非依存性を検証する。
- 複数のベンチマークとタスクモデルにおける順位相関(Spearman、Pearson)で従来の正確さとの整合性を評価する。
- 意味を保つ言い換えの撹乱に対する頑健性と、語義的対立を含む攻撃的プロンプト変更に対する感度を示しつつ、有意義な信号を維持する。

実験結果
リサーチクエスチョン
- RQ1プロンプト品質がLLMの応答品質にどのように影響を与えるかを、共同評価フレームワークで捉えできるか。
- RQ2PEEMスコアは従来の正確さと相関し、さまざまなモデルとベンチマークでモデルランクを維持できるか。
- RQ3PEEM評価は異なる評価バックエンドに対して頑健で、表面的なプロンプト変更に耐性がありつつ、意味操作を検出できるか。
- RQ4PEEMフィードバックをゼロショットのプロンプト書換えループで下流の正確さ向上に活用できるか。
- RQ5提案された9軸ルーブリックは解釈可能で、プロンプト診断と最適化に実用的か。
主な発見
- PEEMのAccuracy軸は従来の正確さと強く整合する(総合Spearman ρ約0.97、Pearson r約0.94、p<0.001)。
- クロス評価者分析で4人の評価者間の相対判断に一貫性が見られる(ペアワイズρは0.68〜0.85)。
- 意味を保つ言い換えに対してPEEMスコアは安定し、意味的な対立操作を含むプロンプト変更では劣化することが示され、質的な評価を実質的に捉えている。
- 各スコアには理論が付随し、プロンプトの改善に有用なフィードバックを可能にする。
- PEEMスコア/理論のみを用いたゼロショットの書換えで下流の正確さが最大11.7ポイント向上し、教師あり学習およびRLベースのベースラインより優れている。
- PEEMは、プロンプトの作成と応答挙動を結ぶ再現性のある、基準駆動のプロトコルを提供し、LLM相互作用の体系的な診断を可能にする。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。