[論文レビュー] Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting
Pairwise Ranking Prompting (PRP) は、文書ペアを比較してテキストをランク付けさせることで、標準ベンチマークで中規模オープンソースLLMによるゼロショットランキングで最先端を達成します。PRP は TREC-DL2019/2020 で多くの大規模モデルやブラックボックスモデルを上回り、PRP-Sliding-K のような派生形で効率的です。
Ranking documents using Large Language Models (LLMs) by directly feeding the query and candidate documents into the prompt is an interesting and practical problem. However, researchers have found it difficult to outperform fine-tuned baseline rankers on benchmark datasets. We analyze pointwise and listwise ranking prompts used by existing methods and argue that off-the-shelf LLMs do not fully understand these challenging ranking formulations. In this paper, we propose to significantly reduce the burden on LLMs by using a new technique called Pairwise Ranking Prompting (PRP). Our results are the first in the literature to achieve state-of-the-art ranking performance on standard benchmarks using moderate-sized open-sourced LLMs. On TREC-DL 2019&2020, PRP based on the Flan-UL2 model with 20B parameters performs favorably with the previous best approach in the literature, which is based on the blackbox commercial GPT-4 that has 50x (estimated) model size, while outperforming other LLM-based solutions, such as InstructGPT which has 175B parameters, by over 10% for all ranking metrics. By using the same prompt template on seven BEIR tasks, PRP outperforms supervised baselines and outperforms the blackbox commercial ChatGPT solution by 4.2% and pointwise LLM-based solutions by more than 10% on average NDCG@10. Furthermore, we propose several variants of PRP to improve efficiency and show that it is possible to achieve competitive results even with linear complexity.
研究の動機と目的
- LLMsにおけるテキストランキング問題を動機づけ、ポイントワイズおよびリストワイズプロンプトの限界を特定する。
- LLMsのタスク難易度を下げるためにPairwise Ranking Prompting (PRP)を導入する。
- オープンソースの中規模LLMsが標準ベンチマークで最先端のランキング性能を発揮できることを示す。
- PRPの効率化バリアントを検討し、入力順序およびAPIモードに対する頑健性を分析する。
提案手法
- クエリに対して2つのパッセージのうちどちらがより関連性が高いかをLLMに尋ねるペアワイズ prompting ユニット u(q, d1, d2) を定義する。
- スコアリングモードを用いてペアワー outputs の対数尤度ベースのスコアを取得し、プロンプト順序感度を緩和するためにドキュメントの順序を入れ替える。
- PRPの3つの派生を開発: PRP-Allpair(グローバルなペアワイズ集約), PRP-Sorting(ペアワイズ比較をソートの比較器として使用), PRP-Sliding-K(線形時間、上位Kに焦点).
- MS MARCOベースのTREC-DL2019およびTREC-DL2020を、オープンソースLLMs(FLAN-T5-XL/XXL、FLAN-UL2)を用いた上位100のBM25再ランク付けとともに評価し、ベースラインと比較する。
- 生成APIとスコアリングAPIの両方をサポートする実用的特性、入力順序に対するロバスト性、線形時間バリアントなどを議論する。
実験結果
リサーチクエスチョン
- RQ1ペアワイズ prompting で中規模のオープンソースLLMsを用いたゼロショットランキングがファインチューニング済みのベースラインを上回ることができるだろうか?
- RQ2標準ベンチマークにおける点ごと(pointwise)およびリストごと(listwise) prompting アプローチと比較して、PRPの派生は精度と効率の点でどうなるか?
- RQ3生成モードとスコアリングモードの両方、および入力順の摂動下で、オープンソースLLMsが競争力のあるランキングを達成できるか?
- RQ4計算量と頑健性の観点で、PRP-Allpair、PRP-Sorting、PRP-Sliding-K のトレードオフは何か?
主な発見
| Method | LLM | Size | TREC-DL2019 NDCG@1 | TREC-DL2019 NDCG@5 | TREC-DL2019 NDCG@10 | TREC-DL2020 NDCG@1 | TREC-DL2020 NDCG@5 | TREC-DL2020 NDCG@10 |
|---|---|---|---|---|---|---|---|---|
| BM25 | NA | NA | 54.26 | 52.78 | 50.58 | 57.72 | 50.67 | 47.96 |
| monoBERT | BERT | 340M | 79.07 | 73.25 | 70.50 | 78.70 | 70.74 | 67.28 |
| monoT5 | T5 | 220M | 79.84 | 73.77 | 71.48 | 77.47 | 69.40 | 66.99 |
| monoT5 | T5 | 3B | 79.07 | 73.74 | 71.83 | 80.25 | 72.32 | 68.89 |
| RankT5 | T5 | 3B | 77.38 | 73.94 | 71.22 | 80.86 | 72.99 | 69.49 |
| LRL | text-davinci-003 | 175B | - | - | 65.80 | - | - | 62.24 |
| RankGPT | gpt-3 | 175B | 50.78 | 50.77 | 49.76 | 50.00 | 48.36 | 48.73 |
| RankGPT | text-davinci-003 | 175B | 69.77 | 64.73 | 61.50 | 69.75 | 58.76 | 57.05 |
| RankGPT | gpt-3.5-turbo | 154B | 82.17 | 71.15 | 65.80 | 79.32 | 66.76 | 62.91 |
| RankGPT | gpt-4 | 1T | 82.56 | 79.16 | 75.59 | 78.40 | 74.11 | 70.56 |
| UPR | FLAN-T5-XXL | 11B | 62.79 | 62.07 | 62.00 | 64.20 | 62.05 | 60.34 |
| RG | FLAN-T5-XXL | 11B | 67.05 | 65.41 | 64.48 | 65.74 | 66.40 | 62.58 |
| UPR | FLAN-UL2 | 20B | 53.10 | 57.68 | 58.95 | 64.81 | 61.50 | 60.02 |
| RG | FLAN-UL2 | 20B | 70.93 | 66.81 | 64.61 | 75.62 | 66.85 | 65.39 |
| PRP-Allpair | FLAN-T5-XL | 3B | 74.03 | 71.73 | 69.75 | 79.01 | 72.22 | 68.12 |
| PRP-Sorting | FLAN-T5-XL | 3B | 77.52 | 71.88 | 69.28 | 74.38 | 69.44 | 65.87 |
| PRP-Sliding-10 | FLAN-T5-XL | 3B | 75.58 | 71.23 | 68.66 | 75.62 | 69.00 | 66.59 |
| PRP-Allpair | FLAN-T5-XXL | 11B | 72.09 | 71.28 | 69.87 | 82.41 | 74.16 | 69.85 |
| PRP-Sorting | FLAN-T5-XXL | 11B | 74.42 | 69.62 | 67.81 | 72.53 | 71.28 | 67.77 |
| PRP-Sliding-10 | FLAN-T5-XXL | 11B | 64.73 | 69.49 | 67.00 | 75.00 | 70.76 | 67.35 |
| PRP-Allpair | FLAN-UL2 | 20B | 73.64 | 74.77 | 72.42 | 85.19 | 74.73 | 70.68 |
| PRP-Sorting | FLAN-UL2 | 20B | 74.42 | 73.60 | 71.88 | 84.57 | 72.52 | 69.43 |
| PRP-Sliding-10 | FLAN-UL2 | 20B | 78.29 | 75.49 | 72.65 | 85.80 | 75.35 | 70.46 |
- PRP with FLAN-UL2 20B achieves state-of-the-art results on TREC-DL2020, outperforming the prior best based on GPT-4 by over 5% at NDCG@1.
- On TREC-DL2019, PRP approaches outperform InstructGPT and are competitive with GPT-4, notably across most ranking metrics.
- PRP variants based on FLAN-UL2 and FLAN-T5 demonstrate competitive results with much smaller models (3B–20B) than prior giant LLMs.
- PRP-Sliding-K provides a favorable efficiency–effectiveness balance with linear or near-linear complexity and good top-K ranking performance.
- PRP is robust to input ordering and works with both scoring and generation APIs, showing minimal sensitivity to prompt mode.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。