[论文解读] HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution
HAGRID 引入一个用于带出处的端到端生成式信息检索的开放数据集,基于 MIRACL English 构建,使用 GPT-3.5 生成答案,人工标注者评判信息性和可归因性。
The rise of large language models (LLMs) had a transformative impact on search, ushering in a new era of search engines that are capable of generating search results in natural language text, imbued with citations for supporting sources. Building generative information-seeking models demands openly accessible datasets, which currently remain lacking. In this paper, we introduce a new dataset, HAGRID (Human-in-the-loop Attributable Generative Retrieval for Information-seeking Dataset) for building end-to-end generative information-seeking models that are capable of retrieving candidate quotes and generating attributed explanations. Unlike recent efforts that focus on human evaluation of black-box proprietary search engines, we built our dataset atop the English subset of MIRACL, a publicly available information retrieval dataset. HAGRID is constructed based on human and LLM collaboration. We first automatically collect attributed explanations that follow an in-context citation style using an LLM, i.e. GPT-3.5. Next, we ask human annotators to evaluate the LLM explanations based on two criteria: informativeness and attributability. HAGRID serves as a catalyst for the development of information-seeking models with better attribution capabilities.
研究动机与目标
- 阐明需要公开可用的数据集来训练具备可归因能力的生成式检索模型。
- 创建一个将大型语言模型生成的解释与人工对信息性和可归因性判断相结合的数据集。
- 利用 MIRACL 提供查询、引文和相关段落,作为生成和评估有根据信源的答案的基础。
- 推动端到端检索增强生成研究,具备显式来源引用的开放性研究。
提出的方法
- 通过将 MIRACL English 的查询及其正向段落作为上下文,构建一个具可归因性的生成流程。
- 使用 GPT-3.5 生成包含参考支持引用的答案。
- 让人工标注者对每个生成的答案在信息性和可归因性方面进行评估。
- 提供两个分割子集(训练集和开发集),以 Apache 2.0 开放获取。
- 对大模型输出进行后处理和筛选,以符合 IEEE 风格的引文格式。
实验结果
研究问题
- RQ1我们如何自动生成能够从给定的一组段落中引用支持引文的有根据信息的答案?
- RQ2在人类评估下,LLM 生成的解释在信息性和可归因性方面的程度如何?
- RQ3一个开放的、人机协同的数据集能否促进具备可归因性的端到端检索增强生成模型的发展?
主要发现
- 用于答案生成的大约 1,922 个训练问题和 716 个开发问题。
- GPT-3.5 生成了 3,214 个训练答案和 1,318 个开发答案(约 1.7–1.8 个每个问题)。
- 引用出现在 6,577 个训练答案和 3,305 个开发答案中(约每个回答 2.0–2.5 个引用)。
- 信息性答案标注为 Yes 的比例为 84%(训练)和 90%(开发);可归因的答案为 Yes 的比例为 73%(训练)和 71%(开发)。
- 大约 40% 的 GPT-3.5 生成的答案信息性不足,且超过 20% 缺乏可归因性,显示还有改进空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。