[论文解读] RankZephyr: Effective and Robust Zero-Shot Listwise Reranking is a Breeze!
RankZephyr 是一个开源的 7B LLM,在零-shot 列表重排序方面达到最先进水平,在 MS MARCO、BEIR 和 NovelEval 基准上与 RankGPT-4 相媲美,在候选列表大小和顺序变化下也具有稳健表现,且在某些情况下甚至超过 RankGPT-4。
In information retrieval, proprietary large language models (LLMs) such as GPT-4 and open-source counterparts such as LLaMA and Vicuna have played a vital role in reranking. However, the gap between open-source and closed models persists, with reliance on proprietary, non-transparent models constraining reproducibility. Addressing this gap, we introduce RankZephyr, a state-of-the-art, open-source LLM for listwise zero-shot reranking. RankZephyr not only bridges the effectiveness gap with GPT-4 but in some cases surpasses the proprietary model. Our comprehensive evaluations across several datasets (TREC Deep Learning Tracks; NEWS and COVID from BEIR) showcase this ability. RankZephyr benefits from strategic training choices and is resilient against variations in initial document ordering and the number of documents reranked. Additionally, our model outperforms GPT-4 on the NovelEval test set, comprising queries and passages past its training period, which addresses concerns about data contamination. To foster further research in this rapidly evolving field, we provide all code necessary to reproduce our results at https://github.com/castorini/rank_llm.
研究动机与目标
- 通过开发一个开源的零-shot 列表重排序器来弥合可复现性差距。
- 缩小开源大语言模型与像 GPT-4 这样的专有模型之间的有效性差距。
- 研究训练选择、教师模型和第一阶段检索器如何影响重排序质量。
- 考察对候选列表大小、初始文档顺序以及数据污染问题的鲁棒性。
提出的方法
- 使用系统提示和用户提示来按相关性对段落进行排序的零-shot 列表重排序的提示设计。
- 两阶段蒸馏:先将 GPT-3.5 RankGPT 数据蒸馏到 7B Zephyr 模型,然后再使用来自 GPT-4 的子集 5K 查询进行蒸馏,将 ADA 2 作为候选顺序。
- 使用滑动窗口解码器(最多进行 3 次渐进应用)来输出前 k 个文档的排序列表。
- 尝试可变的窗口大小以提高对输入长度和排序的鲁棒性。
- 使用多样化的困难负样本来源和变化的查询分布进行训练,以增强指令微调。
- 在 MS MARCO v1/v2 DL 轨道、BEIR NEWS/COVID 与 NovelEval 上进行评估,并与基线(包括 BM25、SPLADE++、RepLLaMA、RankVicuna、RankGPT-3.5 以及 RankGPT-4)进行比较。
实验结果
研究问题
- RQ1一个开源的 7B 模型(RankZephyr)是否能够在标准基准上超越 RankGPT-4 的零-shot 重排序效果?
- RQ2渐进式(多次通过)重排序是否能持续提高列表式重排序的效果?
- RQ3哪些训练数据选择(教师模型、难负样本、查询暴露、窗口大小)最能缩小与 RankGPT-4 的差距?
- RQ4第一阶段检索器和检索到的前 top 候选数量如何影响后续重排序?
- RQ5初始文档排序如何影响重排序性能和模型鲁棒性,特别是在顺序改变时?
- RQ6RankZephyr 对未污染的测试集(超出训练截止日期的数据)如 NovelEval 是否具有鲁棒性?
主要发现
- RankZephyr,具备 7B 参数,缩小了与 RankGPT-4 的有效性差距,在某些数据集上甚至超过 RankGPT-4。
- 渐进式重排序(RankZephyr ρ)通常比单次通过获得更好的最终效果。
- 以 RankGPT-4 作为教师,使用 5K 查询并以 ADA 2 作为第一阶段检索器,可显著缩小与 RankGPT-4 的差距,取得有竞争力的结果。
- RankZephyr 在不同第一阶段检索器上持续改进,候选列表质量越高,重排序结果越好。
- RankZephyr 在 NovelEval 的域外测试中超越 RankGPT-4,解决数据污染问题并展示泛化能力。
- 可变窗口训练在不同输入窗口大小和候选列表下提升了鲁棒性和性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。