Skip to main content
QUICK REVIEW

[論文レビュー] RankZephyr: Effective and Robust Zero-Shot Listwise Reranking is a Breeze!

Ronak Pradeep, Sahel Sharifymoghaddam|arXiv (Cornell University)|Dec 5, 2023
Topic Modeling被引用数 9
ひとこと要約

RankZephyr はオープンソースの7B LLM で、MS MARCO, BEIR, NovelEval のベンチマークで最先端のゼロショットリストワイズ再ランキングを実現し、候補リストのサイズと順序が変動しても堅牢な性能を示し、RankGPT-4 に匹敵するか場合によっては上回る。

ABSTRACT

In information retrieval, proprietary large language models (LLMs) such as GPT-4 and open-source counterparts such as LLaMA and Vicuna have played a vital role in reranking. However, the gap between open-source and closed models persists, with reliance on proprietary, non-transparent models constraining reproducibility. Addressing this gap, we introduce RankZephyr, a state-of-the-art, open-source LLM for listwise zero-shot reranking. RankZephyr not only bridges the effectiveness gap with GPT-4 but in some cases surpasses the proprietary model. Our comprehensive evaluations across several datasets (TREC Deep Learning Tracks; NEWS and COVID from BEIR) showcase this ability. RankZephyr benefits from strategic training choices and is resilient against variations in initial document ordering and the number of documents reranked. Additionally, our model outperforms GPT-4 on the NovelEval test set, comprising queries and passages past its training period, which addresses concerns about data contamination. To foster further research in this rapidly evolving field, we provide all code necessary to reproduce our results at https://github.com/castorini/rank_llm.

研究の動機と目的

  • オープンソースのゼロショットリストワイヤー再ランキング器を開発することによって再現性のギャップに対処する。
  • オープンソースの LLM と GPT-4 のようなプロプリエタリモデルとの効果の差を埋める。
  • トレーニングの選択、教師モデル、および第1段階のリトリーバが再ランキング品質に与える影響を調査する。
  • 候補リストのサイズ、初期文書順序、およびデータ汚染の懸念に対する頑健性を検証する。

提案手法

  • 関連性でパッセージをランキングするシステムプロンプトとユーザープロンプトを用いたゼロショットリストワイズ再ランキングのプロンプト設計。
  • 2段階蒸留: まず GPT-3.5 RankGPT データから7B Zephyrモデルへ蒸留、次に GPT-4 から 5K クエリのサブセットを用い ADA 2 を候補順序付けとして蒸留。
  • スライディングウィンドウデコーダを用いて、最大3回の段階適用パスでトップ-k 文書のランク付けリストを出力する。
  • 入力長と順序への頑健性を高めるために可変ウィンドウサイズを試す。
  • 難易度の高いネガティブの多様なソースと異なるクエリ分布を用いて指示調整を強化する。
  • MS MARCO v1/v2 DL トラック、BEIR NEWS/COVID、NovelEval で評価し、BM25、SPLADE++, RepLLaMA、RankVicuna、RankGPT-3.5、RankGPT-4 を含むベースラインと比較する。

実験結果

リサーチクエスチョン

  • RQ1オープンソースの7Bモデル(RankZephyr)は、標準ベンチマークにおける RankGPT-4 のゼロショット再ランキングの有効性を上回ることができるか。
  • RQ2進行的(多パス)再ランキングは一貫してリストワイズ再ランキングの有効性を向上させるか。
  • RQ3どのトレーニングデータの選択(教師モデル、難ネガティブ、クエリ露出、ウィンドウサイズ)が RankGPT-4 との差を最も縮めるか。
  • RQ4第1段階のリトリーバと取得候補の上位数は下流の再ランキングにどう影響するか。
  • RQ5初期文書順序は再ランキングの性能とモデルの頑健性にどのように影響するか、特に順序のシフト時に?
  • RQ6RankZephyr は NovelEval のようなトレーニングカットオフを超えたデータなどの汚染されていないテストセットに対して頑健か?

主な発見

  • 7B パラメータの RankZephyr は RankGPT-4 との有効性の差を縮め、特定のデータセットでは RankGPT-4 を上回ることさえある。
  • 進行的再ランキング(RankZephyr ρ)は、通常、単一パスよりも最終的な有効性が高い。
  • 5K クエリを用い ADA 2 を第1段階リトリーバとして、教師として RankGPT-4 を用いると RankGPT-4 との差を大幅に縮め、競争力のある結果を達成する。
  • RankZephyr はさまざまな第1段階リトリーバにわたって一貫して改善し、より高品質な候補リストほど再ランキングの結果が向上する。
  • NovelEval のアウトオブドメインテストで RankZephyr は RankGPT-4 を上回り、データ汚染の懸念に対処し、一般化可能性を示す。
  • 可変ウィンドウ訓練は、異なる入力ウィンドウサイズと候補リストに対して頑健性と性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。