[论文解读] Generate rather than Retrieve: Large Language Models are Strong Context Generators
GenRead 用大型语言模型生成上下文文档以替代外部文档检索来执行知识密集型任务;随后读取生成内容以回答问题;基于聚类的提示可提升覆盖范围,在开放域问答中无需外部来源也能取得良好结果。
Knowledge-intensive tasks, such as open-domain question answering (QA), require access to a large amount of world or domain knowledge. A common approach for knowledge-intensive tasks is to employ a retrieve-then-read pipeline that first retrieves a handful of relevant contextual documents from an external corpus such as Wikipedia and then predicts an answer conditioned on the retrieved documents. In this paper, we present a novel perspective for solving knowledge-intensive tasks by replacing document retrievers with large language model generators. We call our method generate-then-read (GenRead), which first prompts a large language model to generate contextutal documents based on a given question, and then reads the generated documents to produce the final answer. Furthermore, we propose a novel clustering-based prompting method that selects distinct prompts, resulting in the generated documents that cover different perspectives, leading to better recall over acceptable answers. We conduct extensive experiments on three different knowledge-intensive tasks, including open-domain QA, fact checking, and dialogue system. Notably, GenRead achieves 71.6 and 54.4 exact match scores on TriviaQA and WebQ, significantly outperforming the state-of-the-art retrieve-then-read pipeline DPR-FiD by +4.0 and +3.9, without retrieving any documents from any external knowledge source. Lastly, we demonstrate the model performance can be further improved by combining retrieval and generation. Our code and generated documents can be found at https://github.com/wyu97/GenRead.
研究动机与目标
- 促使知识密集型任务,减少对外部文档检索的依赖。
- 提出生成-再阅读的流程:生成上下文文档并读取它们以回答问题。
- 引入基于聚类的提示,产生多样化的生成上下文并提升召回。
- 在零-shot和有监督设置下,展示 GenRead 在开放域问答、事实核查和对话任务中的有效性。
提出的方法
- 提出 generate-then-read(GenRead):对给定问题提示一个大型语言模型生成上下文文档,然后读取生成的文档以给出最终答案。
- 在零-shot设置中使用一个读取步骤,基于生成的文档来回答问题。
- 在有监督设置中,使用 FiD 阅读器并用生成的文档进行微调;为提高效率,限制为10个文档。
- 引入基于聚类的提示:对初始问题-文档对进行聚类,并从每个簇中抽样提示以产生多样化的生成文档。
- 将基于生成的上下文与基于检索的基线(DPR、RAG、FiD)进行对比,并展示将生成与检索文档结合时的互补收益。
实验结果
研究问题
- RQ1LLM 生成的上下文文档是否可以在知识密集型任务中取代外部检索?
- RQ2基于聚类的提示是否能增加生成上下文的多样性和覆盖范围?
- RQ3在零-shot 与有监督设置下,GenRead 在问答、事实核查和对话任务中的表现如何?
- RQ4将生成与检索文档结合是否能超过任一单独方法?
主要发现
- GenRead 在 TriviaQA 和 WebQ 的零-shot 中达到 71.6 和 54.4 的精确匹配(EM),超过无需外部文档的检索再阅读基线 DPR-FiD。
- GenRead 在若干基准测试中达到或超过零-shot 的检索再阅读模型,在某些情况下无需外部知识源就超越它们。
- 基于聚类的提示在问答中的表现优于采样或单一提示,提高覆盖率和 EM 分数。
- 在有监督设置中,使用 FiD-xl 的 GenRead 取得强劲结果,当将生成与检索文档结合时甚至优于基于检索的方法。
- 该方法展示了互补性:将生成的上下文与检索文档合并时可提升性能,通常带来比任一方法单独使用更大的增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。