[论文解读] UMBRELA: UMbrela is the (Open-Source Reproduction of the) Bing RELevance Assessor
UMBRELA 是一个开源工具包,使用 GPT-4o 重现 Bing 相关性评估,在 TREC DL Tracks (2019–2023) 中与人工判断高度相关性得到验证,并能够集成到检索评估管道中。
Copious amounts of relevance judgments are necessary for the effective training and accurate evaluation of retrieval systems. Conventionally, these judgments are made by human assessors, rendering this process expensive and laborious. A recent study by Thomas et al. from Microsoft Bing suggested that large language models (LLMs) can accurately perform the relevance assessment task and provide human-quality judgments, but unfortunately their study did not yield any reusable software artifacts. Our work presents UMBRELA (a recursive acronym that stands for UMbrela is the Bing RELevance Assessor), an open-source toolkit that reproduces the results of Thomas et al. using OpenAI's GPT-4o model and adds more nuance to the original paper. Across Deep Learning Tracks from TREC 2019 to 2023, we find that LLM-derived relevance judgments correlate highly with rankings generated by effective multi-stage retrieval systems. Our toolkit is designed to be easily extensible and can be integrated into existing multi-stage retrieval and evaluation pipelines, offering researchers a valuable resource for studying retrieval evaluation methodologies. UMBRELA will be used in the TREC 2024 RAG Track to aid in relevance assessments, and we envision our toolkit becoming a foundation for further innovation in the field. UMBRELA is available at https://github.com/castorini/umbrela.
研究动机与目标
- 证明基于大语言模型的相关性判断可以在检索评估中与人类评估相匹配。
- 提供一个开源、可扩展的工具包,用于复现实验和研究基于LLM的相关性标注。
- 验证LLM推断判断与传统人类判断在多个 TREC DL track 中的相关性。
提出的方法
- 使用 GPT-4o,采用零-shot DNA 提示来分配相关性分数(0–3),复现 Thomas 等人 2024。
- 将 Descriptive, Narrative, and Aspects(DNA)提示框架应用于查询-段落对。
- 使用 TREC DL Track 2019–2023 的人工 qrels 作为黄金标签,并用 UMBRELA 重新评估。
- 通过对某些 tracks 排除非规范的重复段落来处理近似重复的段落。
- 使用 Cohen’s kappa、Kendall tau、Spearman rho 和 nDCG@10 来评估人类判断与 LLM 判断之间的一致性和排序相关性。
实验结果
研究问题
- RQ1在多个 TREC DL track 中,GPT-4o 是否能够就给定查询对段落重现人类相关性判断?
- RQ2基于 LLM 的判断在一致性和检索系统排名方面是否与人类判断相关?
- RQ3开源的 UMBRELA 工具包在集成到检索评估管道中是否有效且可扩展?
主要发现
- Cohen’s kappa(四级)在各 track 间范围为 0.3081 至 0.3730,指示与人类判断之间的公平到中等一致性。
- Cohen’s kappa(二元)在各 track 间范围为 0.4176 至 0.4990,指示中等一致性。
- Kendall tau 和 Spearman rho 相关性在人类与 LLM 判断之间始终较高(例如,tau ~0.87–0.94,rho ~0.97–0.99,在各 track 中)。
- 基于 LLM 的评估在与人类地面真实评估使用 nDCG@10 进行比较时,产生高相关的排序。
- 结果重复并扩展了先前的工作,验证 GPT-4o 作为实用的相关性评估工具,并为社区提供一个开源工具。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。