QUICK REVIEW

[論文レビュー] APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking

Can Jin, Hongwu Peng|arXiv (Cornell University)|Jun 20, 2024

Topic Modeling被引用数 14

ひとこと要約

この論文は APEER を提案する。自動プロンプト設計アルゴリズムで、LLM ベースのパッセージ再ランク付けのプロンプトを反復的に改善し、手動プロンプトに対して大きな利得を得るとともに、データセットとモデル間での転移性が高いことを示す。

ABSTRACT

Large Language Models (LLMs) have significantly enhanced Information Retrieval (IR) across various modules, such as reranking. Despite impressive performance, current zero-shot relevance ranking with LLMs heavily relies on human prompt engineering. Existing automatic prompt engineering algorithms primarily focus on language modeling and classification tasks, leaving the domain of IR, particularly reranking, underexplored. Directly applying current prompt engineering algorithms to relevance ranking is challenging due to the integration of query and long passage pairs in the input, where the ranking complexity surpasses classification tasks. To reduce human effort and unlock the potential of prompt optimization in reranking, we introduce a novel automatic prompt engineering algorithm named APEER. APEER iteratively generates refined prompts through feedback and preference optimization. Extensive experiments with four LLMs and ten datasets demonstrate the substantial performance improvement of APEER over existing state-of-the-art (SoTA) manual prompts. Furthermore, we find that the prompts generated by APEER exhibit better transferability across diverse tasks and LLMs.

研究の動機と目的

情報検索におけるゼロショット LLM 再ランク付けのためのプロンプト設計における人手の労力を削減する動機。
フィードバックと好みの最適化によりプロンプトを適応させる自己完結型の自動プロンプト設計フレームワークを開発する。
生成されたプロンプトの効果と転移性を多様なデータセットとモデルアーキテクチャ間で実証する。

提案手法

フィードバック最適化によって現在のプロンプトをモデルの応答とフィードバックに基づいて洗練させる、反復的な二段階のプロンプト最適化。
探索を導くために正のセット（SoTA の手動プロンプトに基づく）と負のセット（性能の低いプロンプト）でプロンプトを初期化する。
MS MARCO 風のサブセットからトレーニングデータを構築し、クエリ–パッセージのグループと対応する関連性の順序を作成してプロンプトを作成する。
固定された第一段リトリーバー（BM25）と様々な LLM を用いたリストワイズ再ランク付け設定でプロンプトを評価する。
生成されたプロンプトのモデル間・データセット間の転移性を評価し、Preference Optimization とトレーニングデータサイズのアブレーションを行う。

Figure 1: Performance overview of four prompting methods on GPT4, LLaMA3 (AI@Meta, 2024 ) and Qwen2 (qwe, 2024 ) models and BEIR datasets (Thakur et al., 2021 ) . The manual prompt is RankGPT (Sun et al., 2023 ) . Modifying the manual prompt with CoT and paraphrasing yields marginal gains.

実験結果

リサーチクエスチョン

RQ1自動的なプロンプト設計は、情報検索におけるパッセージ関連度ランキングのゼロショット LLM 再ランク付けを、手動プロンプトを超えて改善できるか？
RQ2自動最適化によって生成されたプロンプトは、異なるデータセットやモデルアーキテクチャ間で効果的に転移するか？
RQ3フィードバックと好みの最適化が、リランクタスクのプロンプト品質に与える寄与はどの程度か？

主な発見

APEER は GPT-4、LLaMA3、Qwen2 モデルで、MS MARCO由来のタスク（ドメイン内）および BEIR データセット（ドメイン外）で、最先端の手動プロンプトより一貫して改善を示した。
BEIR の8タスクで、APEER は GPT-4 の手動プロンプトに対して平均 nDCG@10 を 5.29 向上させ、他のモデルにも顕著な利得をもたらす。
Feedback Optimization は局所的なプロンプト改善を提供し、Preference Optimization は高品質の模範へとプロンプトを整列させ、アブレーションでその有効性を示す。
APEER によって生成されたプロンプトは、モデル間でうまく転移する（例：GPT-4 で訓練されたプロンプトが GPT-3.5 および LLaMA3 ベースのシステムを改善）し、データセット間（MS MARCO から BEIR）でも転移する。
GPT-4 with APEER は、報告された実験の中で prompting 手法、モデル、データセットの中で最良の全体パフォーマンスを達成した。
アブレーションは、Preference Optimization がプロンプト品質に実質的に寄与することを示し、トレーニングデータ量を増やすことは一般にパフォーマンスを向上させるが、コストとのトレードオフを伴う。）

Figure 2: Overview of \ours . \ours iteratively refines prompts through two optimization steps. In Feedback Optimization, it refines the current prompt $p$ and creates a refined prompt $p^{\prime}$ based on feedback. In Preference Optimization, it further optimizes $p^{\prime}$ by learning preferenc

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。