[論文レビュー] Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents
本研究は、適切に指示されたChatGPTとGPT-4がパッセージ再ランキングを最先端の監視学習手法と競合する、あるいはそれを上回る水準で実行できることを示し、この能力をより小さなモデルへ転送するためのパーミュテーション蒸留を導入します。
Large Language Models (LLMs) have demonstrated remarkable zero-shot generalization across various language-related tasks, including search engines. However, existing work utilizes the generative ability of LLMs for Information Retrieval (IR) rather than direct passage ranking. The discrepancy between the pre-training objectives of LLMs and the ranking objective poses another challenge. In this paper, we first investigate generative LLMs such as ChatGPT and GPT-4 for relevance ranking in IR. Surprisingly, our experiments reveal that properly instructed LLMs can deliver competitive, even superior results to state-of-the-art supervised methods on popular IR benchmarks. Furthermore, to address concerns about data contamination of LLMs, we collect a new test set called NovelEval, based on the latest knowledge and aiming to verify the model's ability to rank unknown knowledge. Finally, to improve efficiency in real-world applications, we delve into the potential for distilling the ranking capabilities of ChatGPT into small specialized models using a permutation distillation scheme. Our evaluation results turn out that a distilled 440M model outperforms a 3B supervised model on the BEIR benchmark. The code to reproduce our results is available at www.github.com/sunnweiwei/RankGPT.
研究の動機と目的
- 標準的なIRベンチマークで、ゼロショットのChatGPTとGPT-4が効果的にパッセージ再ランキングを行えるかを調査する。
- 文脈制限に対処するため、スライディングウィンドウ付きの指示的パーミュテーション生成アプローチを提案する。
- NovelEvalを導入してデータ汚染の懸念を評価する。未知の知識を含む新しい評価セットである。
- LLMのランキング能力を小型の専門モデルへ転写するためのパーミュテーション蒸留法を開発する。
- 得られた専門モデルの性能を既存の監督付き手法と比較して評価し、スケーラビリティを分析する。
提案手法
- 2つの prompting 戦略(クエリ生成と関連性生成)を用い、パッセージをランキング順に出力するパーミュテーション生成プロンプトを導入する。
- トークン制限を超えてより多くのパッセージをランキングするためにスライディングウィンドウ戦略を適用する。
- TREC、BEIR、Mr.TyDiのベンチマークに加え、未知の知識を含むNovelEvalで評価する。
- RankNet損失とクロスエンコーダーまたはGPT系アーキテクチャを用いて、ChatGPTのパーミュテーション出力を小型モデルへ蒸留する。
- 指示とモデルファミリ―(GPT-3.5、GPT-4、ChatGPT、オープンソース対応)を比較し、信頼性と安定性を評価する。
実験結果
リサーチクエスチョン
- RQ1RQ1: 標準的なIRベンチマーク全体で、ChatGPT(およびGPT-4)はパッセージ再ランキングタスクでどのように性能を発揮するか?
- RQ2RQ2: ChatGPTのランキング能力は効果的に小型の専門モデルへ蒸留できるか?
- RQ3RQ3: 指示設計(パーミュテーション生成対関連性/クエリ生成)が再ランキングの品質にどのように影響するか?
- RQ4RQ4: NovelEvalを介して未知の知識に対するLLMベースの再ランキング手法の適応性はどの程度か?
主な発見
| Method | DL19 | DL20 | Covid | NFCorpus | Touche | DBPedia | SciFact | Signal | News | Robust04 | BEIR (Avg) |
|---|---|---|---|---|---|---|---|---|---|---|---|
| BM25 | 50.58 | 47.96 | 59.47 | 30.75 | 44.22 | 31.80 | 67.89 | 33.05 | 39.52 | 40.70 | 43.42 |
| monoBERT (340M) | 70.50 | 67.28 | 70.01 | 36.88 | 31.75 | 41.87 | 71.36 | 31.44 | 44.62 | 49.35 | 47.16 |
| monoT5 (220M) | 71.48 | 66.99 | 78.34 | 37.38 | 30.82 | 42.42 | 73.40 | 31.67 | 46.83 | 51.72 | 49.07 |
| monoT5 (3B) | 71.83 | 68.89 | 80.71 | 38.97 | 32.41 | 44.45 | 76.57 | 32.55 | 48.49 | 56.71 | 51.36 |
| Cohere Rerank-v2 | 73.22 | 67.08 | 81.81 | 36.36 | 32.51 | 42.51 | 74.44 | 29.60 | 47.59 | 50.78 | 49.45 |
| Unsupervised / UPR (FLAN-T5-XL) | 53.85 | 56.02 | 68.11 | 35.04 | 19.69 | 30.91 | 72.69 | 31.91 | 43.11 | 42.43 | 42.99 |
- 指示的パーミュテーション生成を用いるGPT-4は、複数のベンチマークで最先端の監視学習手法を上回り、平均nDCG@10の向上を示す(TRECで2.7、BEIRで2.3、My.TyDiで2.7)。
- GPT-4はNovelEval、訓練中に見られない新規知識を含むテストセットで最先端の結果を達成。
- ChatGPTはBEIRで多くの監視付きベースラインを上回ることができ、GPT-4とChatGPTの混成構成はコストと性能のバランスを取れる。
- パーミュテーション蒸留により、BEIRでmonoT5 (3B)を上回る435MパラメータのDeBERTa/LLaMA-7B系などの小型モデルを生み出し、場合によっては教師を上回る。
- ChatGPT生成パーミュテーションで蒸留されたDeBERTaモデルは、MS MARCOの監視付き学習と比較してBEIRおよび全体ベンチマークでより強力な性能を示し、安定性も向上。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。