Skip to main content
QUICK REVIEW

[論文レビュー] Error Taxonomy-Guided Prompt Optimization

Mayank Singh, Vikas Yadav|arXiv (Cornell University)|Feb 1, 2026
Software System Performance and Reliability被引用数 0
ひとこと要約

ETGPO は backbone LLM の故障からグローバルなエラートポロジーを構築し、一般的なエラーに対する狙いを定めた指導を生成し、前提 APO 手法の約1/3 の最適化コストで高精度を実現するプロンプトを強化します。

ABSTRACT

Automatic Prompt Optimization (APO) is a powerful approach for extracting performance from large language models without modifying their weights. Many existing methods rely on trial-and-error, testing different prompts or in-context examples until a good configuration emerges, often consuming substantial compute. Recently, natural language feedback derived from execution logs has shown promise as a way to identify how prompts can be improved. However, most prior approaches operate in a bottom-up manner, iteratively adjusting the prompt based on feedback from individual problems, which can cause them to lose the global perspective. In this work, we propose Error Taxonomy-Guided Prompt Optimization (ETGPO), a prompt optimization algorithm that adopts a top-down approach. ETGPO focuses on the global failure landscape by collecting model errors, categorizing them into a taxonomy, and augmenting the prompt with guidance targeting the most frequent failure modes. Across multiple benchmarks spanning mathematics, question answering, and logical reasoning, ETGPO achieves accuracy that is comparable to or better than state-of-the-art methods, while requiring roughly one third of the optimization-phase token usage and evaluation budget.

研究の動機と目的

  • Automatic Prompt Optimization (APO) における計算コスト削減を、グローバルなエラーレンジを活用して動機づける。
  • 普及しているエラーを収集・分類・ターゲット化するトップダウン型の ETGPO フレームワークを提案する。
  • エラー指向のプロンプトが、さまざまなベンチマークで最先端の APO と同等以上の性能を示すことを実証する。
  • ベースラインと比較して最適化トークンと評価予算の大幅な削減を示す。

提案手法

  • 基礎プロンプトの K 回実行から検証セットのエラーを収集して故障の痕跡を把握する。
  • optimizer LLM を用いて普及率統計を伴うカテゴリに故障をグルーピングしてエラートポロジーを作成する。
  • 問題と故障数に基づいて上位の普及エラーカテゴリを選択し、プロンプト編集を指針とする。
  • optimizer LLM を介して、実行可能なカテゴリ別ガイダンス(例付き)を生成し、基礎プロンプトに追加する。
  • 最終的なプロンプトを数学、QA、推論タスクに対して評価し、精度とトークン効率をベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1データセットレベルの故障に対するグローバルなエラートポロジーは、精度を犠牲にせず APO の効率を改善できるか。
  • RQ2普及エラーカテゴリへ焦点を当てることで、個別の例の編集より良い一般化が得られるか。
  • RQ3ETGPO は数学、QA、推論などの多様な領域で、最先端の APO 手法と比較してどのように性能を発揮するか。
  • RQ4他の APO アプローチと比べて、競争力のある性能を維持しつつ ETGPO の相対的なトークンコストはどれくらいか。

主な発見

  • ETGPO は複数のベンチマークで最先端の APO 手法と同等以上の精度を達成する。
  • ETGPO は強力なベースラインと比較して、最適化フェーズのトークンをおおよそ3分の1 使用している。
  • エラートポロジーは普及エラーを狙い撃ちするガイダンスを可能にし、個別問題を超えた一般化を改善する。
  • アブレーション研究は、トポロジー作成、ガイダンス生成、詳細ガイダンスの全てが性能向上に寄与することを示す。
  • データセットを通じて、ETGPO はしばしば最良の平均性能を示し、FOLIO や AIME のようなタスクで顕著な改善を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。