[论文解读] Perspectives on Large Language Models for Relevance Judgment
本视角论文讨论在信息检索中使用大型语言模型(LLMs)进行相关性判断的可行性,提出人机协作谱系,并给出将LLM判断与人工评估者进行初步对比的试点结果。讨论开放问题、风险以及向完全或部分自动化测试集合迈进的潜在路径。
When asked, large language models (LLMs) like ChatGPT claim that they can assist with relevance judgments but it is not clear whether automated judgments can reliably be used in evaluations of retrieval systems. In this perspectives paper, we discuss possible ways for LLMs to support relevance judgments along with concerns and issues that arise. We devise a human--machine collaboration spectrum that allows to categorize different relevance judgment strategies, based on how much humans rely on machines. For the extreme point of "fully automated judgments", we further include a pilot experiment on whether LLM-based relevance judgments correlate with judgments from trained human assessors. We conclude the paper by providing opposing perspectives for and against the use of~LLMs for automatic relevance judgments, and a compromise perspective, informed by our analyses of the literature, our preliminary experimental evidence, and our experience as IR researchers.
研究动机与目标
- 在 Cranfield 范式及人力判断成本背景下,动机并框定信息检索的评估挑战。
- 提出相关性判断的人机协作谱系,以评估可行性与成本。
- 回顾现有方法(人工、众包、AI 辅助、全自动)及其权衡。
- 提供关于 LLM 与人工判断一致性的初步实证证据。
- 概述 LLM 基于相关性评估的开放问题、风险及未来方向。
提出的方法
- 回顾并综合相关性判断与自动化辅助的文献。
- 提出从手动到完全自动判断的四级人机协作谱系。
- 进行一项与人类评估者在 TREC-8 和 TREC-DL 2021 上比较的试点可行性实验,比较 LLM 基于判断(GPT-3.5 和 YouChat)。
- 使用带少量示例提示的 GPT-3.5 对 TREC-DL 2021 重新判断并与原始人工判断进行比较。
- 讨论基于 LLM 的判断中的偏差、事实性和可靠性问题,以及人类验证策略。
实验结果
研究问题
- RQ1LLMs 是否能产生与经过训练的人工评估者在不同测试集合上有意义对齐的相关性判断?
- RQ2相较于人工评估者,使用 LLM 进行相关性判断的成本-质量权衡如何?
- RQ3应如何结构化人机协作,以最大化相关性判断的可靠性和效率?
- RQ4在依赖 LLM 构建测试集合时,会出现哪些未解决的风险(偏见、幻觉、真实性)?
- RQ5完全自动化的基于 LLM 的评估在哪些条件下是可行的?
主要发现
- LLMs 与人工评估者存在部分一致性,在某些非相关案例上对齐度较高,在相关案例上的对齐则因测试集合和模型而异。
- 在一个设置中,GPT-3.5 对 TREC-8 的相关与非相关的 Cohen’s kappa 为 0.38,而同一任务下 YouChat 的一致性较低。
- 在 TREC-DL 2021 上,YouChat 对高度相关(等级3)的案件的一致性更高(0.49 kapp[a])而对非相关案件的一致性较低(二值化形式为 0.42),表明在相关性等级上性能波动。
- 在 TREC-DL 2021 的高度相关问题–段落对上,YouChat 的对齐更为有利(100 对中有 96 对高相关)相较于非相关对(100 对中有 42 对)。
- 作者在 TREC-DL 2021 的再判断实验中展示了成本差异,指出 GPT-3.5 的判断成本约为 USD 0.01/次,总支出在其设定中为 USD 111.90。
- 论文强调包括偏见、事实性、推理及对基于 LLM 的判断进行质量保证等多项开放问题,以及个性化或多样化的 LLM 以降低模型间相关性的潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。