[论文解读] RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large Language Models
简要结论:RankVicuna 是首个完全开源的基于 LLM 的零样本列表化文档重排序器,在使用 RankGPT 3.5 生成的教师排名进行数据增强和蒸馏后,采用 7B 的 Vicuna 模型,在 TREC DL19/20 数据集上实现与 GPT-3.5 相当的效果,接近 GPT-4。
Researchers have successfully applied large language models (LLMs) such as ChatGPT to reranking in an information retrieval context, but to date, such work has mostly been built on proprietary models hidden behind opaque API endpoints. This approach yields experimental results that are not reproducible and non-deterministic, threatening the veracity of outcomes that build on such shaky foundations. To address this significant shortcoming, we present RankVicuna, the first fully open-source LLM capable of performing high-quality listwise reranking in a zero-shot setting. Experimental results on the TREC 2019 and 2020 Deep Learning Tracks show that we can achieve effectiveness comparable to zero-shot reranking with GPT-3.5 with a much smaller 7B parameter model, although our effectiveness remains slightly behind reranking with GPT-4. We hope our work provides the foundation for future research on reranking with modern LLMs. All the code necessary to reproduce our results is available at https://github.com/castorini/rank_llm.
研究动机与目标
- 证明一个开源的 LLM 能在信息检索中实现高质量的零-shot 列表化重排序。
- 在 TREC 2019 和 2020 的 Deep Learning 赛道上,将 RankVicuna 与专有的提示解码器及基线方法进行对比评估。
- 研究一级检索器、数据增强和渐进式重排序对效果与鲁棒性的影响。
- 提供可复现的基础设施与模型检查点,推动开源重新排序领域的进一步研究。
提出的方法
- 使用提示-解码器方法将 Vicuna 作为开源 LLM,形式化零-shot 列式重排。
- 使用 RankGPT 3.5 生成的教师排序进行数据增强(shuffle inputs; keep BM25 as a baseline reference)来训练 RankVicuna(7B),以产出鲁棒排序。
- 使用滑动窗口(大小 20,步长 10)在受限上下文大小内对前-100 候选进行重新排序。
- 将 RankVicuna 与 BM25、Contriever、RankGPT 3.5、RankGPT 4、LRL、PRP-Sliding-10 变体,以及 SPLADE++ ED 在 DL19/DL20 数据集上进行对比。
- 使用 DL19 和 DL20 测试集合进行 nDCG@10 和 MAP@100 的评估。
实验结果
研究问题
- RQ1一个开源的 LLM 是否能够在零-shot 重排序方面达到与专有模型相竞争的水平?
- RQ2在零-shot 重排序设置下,RankVicuna 的表现相对于 GPT-3.5 与 GPT-4 如何?
- RQ3一级检索质量与数据增强对重排序的有效性与鲁棒性有何影响?
- RQ4与专有的提示解码器相比,RankVicuna 的稳定性与确定性特征如何?
主要发现
- RankVicuna(7B)在 DL20 数据集上达到与 RankGPT 3.5 相近的 nDCG@10 与 MAP@100,略低于 RankGPT 4。
- RankVicuna 在 LRL 的零-shot 方法中表现优于其,并且在搭配 SPLADE++ ED 作为第一阶段时呈现具竞争力的表现。
- RankVicuna 能在保持完全开源且确定性的前提下,匹配或超越开源基线。
- 数据增强提高了对候选项打乱与初始检索质量的鲁棒性,但在某些第一阶段设置下存在一定权衡。
- 使用 RankVicuna 的渐进式重排序在收敛速度和最终的 nDCG@10 方面优于 PRP-Sliding 变体(PRPVicuna)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。