[论文解读] Retrieve, Rerank, Read, then Iterate: Answering Open-Domain Questions of Arbitrary Complexity from Text.
本文提出了一种统一的、迭代式的检索增强生成框架,仅使用现成的检索系统和原始文本,即可回答任意复杂度的开放域问题。该框架采用单一多任务模型,迭代地检索、重排序并阅读支持性事实,其在单跳和多跳基准测试中均优于最先进系统,包括一个基于维基百科的新三跳基准测试。
Current approaches to open-domain question answering often make crucial assumptions that prevent them from generalizing to real-world settings, including the access to parameterized retrieval systems well-tuned for the task, access to structured metadata like knowledge bases and web links, or a priori knowledge of the complexity of questions to be answered (e.g., single-hop or multi-hop). To address these limitations, we propose a unified system to answer open-domain questions of arbitrary complexity directly from text that works with off-the-shelf retrieval systems on arbitrary text collections. We employ a single multi-task model to perform all the necessary subtasks---retrieving supporting facts, reranking them, and predicting the answer from all retrieved documents---in an iterative fashion. To emulate a more realistic setting, we also constructed a new unified benchmark by collecting about 200 multi-hop questions that require three Wikipedia pages to answer, and combining them with existing datasets. We show that our model not only outperforms state-of-the-art systems on several existing benchmarks that exclusively feature single-hop or multi-hop open-domain questions, but also achieves strong performance on the new benchmark.
研究动机与目标
- 解决现有开放域问答系统依赖专用检索系统、结构化元数据或对问题复杂度先验知识的局限性。
- 开发一种通用框架,可直接从非结构化文本集合中处理任意复杂度的问题。
- 通过使用现成的检索系统,消除对参数化检索模型或精心整理知识库的依赖。
- 将检索、重排序和阅读三个子任务统一为一个使用单一多任务模型的迭代过程。
- 在新的复杂三跳维基百科问答基准上评估系统,以模拟现实世界中的复杂性。
提出的方法
- 系统采用迭代流程,按顺序执行检索、重排序和阅读,每一步均对下一步的输入进行优化。
- 训练一个单一多任务模型,以执行三项任务:检索相关段落、重排序段落,并从检索到的文档中预测答案。
- 该模型以闭环方式运行,允许多轮迭代,以在生成答案前优化支持性事实集合。
- 该方法设计为可与任何现成的检索系统和任意文本集合兼容,无需微调检索组件。
- 训练数据包含最多需要三篇维基百科文章才能回答的问题,以模拟真实的多跳推理过程。
- 该框架无需访问结构化元数据(如知识库或网页链接),完全依赖非结构化文本。
实验结果
研究问题
- RQ1一个统一的、端到端可训练的模型是否能有效处理开放域中任意复杂度的问题,而无需依赖专用检索系统?
- RQ2当联合训练时,单一多任务模型在单跳和多跳问答基准测试中的表现如何?
- RQ3迭代式检索与阅读过程在复杂多跳问题上能将答案准确率提升到何种程度?
- RQ4该系统在需要超过两份支持性文档(如三跳问题)的问题上泛化能力如何?
- RQ5在无法访问结构化元数据的情况下,该模型能否在新的三跳维基百科问答基准上实现优异表现?
主要发现
- 所提出的模型在包含单跳或多跳问题的现有基准测试中优于最先进系统。
- 该模型在新构建的200个三跳问题基准测试中表现优异,这些问题需要三篇维基百科文章才能回答。
- 迭代式多任务框架能够在无需访问参数化检索系统的情况下,有效处理长链证据推理。
- 该系统在不同问题复杂度水平间表现出良好的泛化能力,在开放域设置中展现出强鲁棒性。
- 使用未经微调的现成检索系统,使该系统可部署于多样化的现实世界文本集合中。
- 统一的架构减少了对任务特定组件的依赖,简化了部署流程并提升了适应性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。