Skip to main content
QUICK REVIEW

[论文解读] SearchQA: A New Q&A Dataset Augmented with Context from a Search Engine

Matthew Dunn, Levent Sagun|arXiv (Cornell University)|Apr 18, 2017
Topic Modeling参考文献 13被引用 385
一句话总结

本文介绍了 SearchQA,这是一个包含 140,461 个问题-答案对的大规模阅读理解数据集,其上下文信息来自 Google 实际搜索结果的片段。与以往使用精心筛选、语义清晰的上下文数据集不同,SearchQA 通过检索嘈杂、多样化的搜索片段来模拟真实世界中的问答流程,使其成为更具现实意义的基准测试数据集;人工评估显示,人类与最先进模型之间存在显著性能差距,凸显了该数据集在推动开放域问答系统发展方面的挑战与价值。

ABSTRACT

We publicly release a new large-scale dataset, called SearchQA, for machine comprehension, or question-answering. Unlike recently released datasets, such as DeepMind CNN/DailyMail and SQuAD, the proposed SearchQA was constructed to reflect a full pipeline of general question-answering. That is, we start not from an existing article and generate a question-answer pair, but start from an existing question-answer pair, crawled from J! Archive, and augment it with text snippets retrieved by Google. Following this approach, we built SearchQA, which consists of more than 140k question-answer pairs with each pair having 49.6 snippets on average. Each question-answer-context tuple of the SearchQA comes with additional meta-data such as the snippet's URL, which we believe will be valuable resources for future research. We conduct human evaluation as well as test two baseline methods, one simple word selection and the other deep learning based, on the SearchQA. We show that there is a meaningful gap between the human and machine performances. This suggests that the proposed dataset could well serve as a benchmark for question-answering.

研究动机与目标

  • 创建一个反映真实世界问答完整流程的问答数据集,包括嘈杂、未经过滤的搜索结果。
  • 弥合现有封闭域问答数据集(上下文保证相关)与真实世界问答系统之间存在的差距——后者必须处理嘈杂、无关且结构不良的文档。
  • 提供一个更能模拟开放域问答中信息检索与答案生成挑战的基准测试。
  • 发布一个公开可获取的数据集,并附带丰富的元数据(如 URL、节目日期等),以支持可复现的研究与模型评估。

提出的方法

  • 从 J! Archive(一个公开的《危险边缘》问题数据库)中获取问题-答案对。
  • 将每个问题提交至 Google 搜索,平均获取 49.6 个搜索片段,以模拟真实世界的信息检索过程。
  • 应用严格过滤:移除包含问题本身、《危险边缘》相关术语或节目播出日期的片段;排除 Google 搜索结果少于 40 个的问题。
  • 仅保留答案存在于片段中且答案长度不超过三个词的元组。
  • 收集包括《危险边缘》节目详情、片段 URL 和搜索引擎元数据在内的元数据。
  • 训练并评估两个基线模型:TF-IDF 最大值(简单词语选择)和注意力求和阅读器(ASR),一种在片段上使用注意力机制的神经网络模型。

实验结果

研究问题

  • RQ1使用真实搜索引擎结果构建的问答数据集,是否能比使用精心筛选、干净上下文的数据集更真实地反映真实世界问答系统的挑战?
  • RQ2在使用嘈杂、真实世界片段的问答任务中,人类表现与机器表现相比如何?
  • RQ3在真实、嘈杂的问答基准上,基于 TF-IDF 的简单基线模型在多大程度上能超越深度学习模型(如 ASR)?
  • RQ4人类与机器在 SearchQA 上的性能差距是否表明当前模型在处理嘈杂、非结构化且可能不完整的信息方面仍存在不足?

主要发现

  • SearchQA 包含 140,461 个问题-答案对,平均每个问题对应 49.6 个片段,总计 690 万个片段,且已公开发布,附带完整元数据。
  • 人工志愿者在测试集上的 top-1 准确率为 41.3%,表明即使对人类而言,该数据集也具有挑战性,尤其对较长答案而言。
  • 注意力求和阅读器(ASR)模型在测试集上的 top-1 准确率为 41.3%,与人类表现非常接近,表明当前模型在该基准上已接近人类水平。
  • TF-IDF 最大值基线模型的 top-1 准确率仅为 12.7%,远低于 ASR 模型,表明在这一嘈杂、真实世界场景中,简单的启发式方法是无效的。
  • 尽管人类表现较高,但人类与模型之间的差距虽小但具有实际意义,表明 SearchQA 是未来研究的可行基准。
  • 该数据集的元数据(包括 URL 和节目信息)支持对模型鲁棒性与跨源泛化能力的进一步分析。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。