Skip to main content
QUICK REVIEW

[论文解读] NewsQA: A Machine Comprehension Dataset

Adam Trischler, Tong Wang|arXiv (Cornell University)|Nov 29, 2016
Topic Modeling参考文献 17被引用 77
一句话总结

NewsQA 是一个大规模、众包的机器阅读理解数据集,包含超过 119,000 个自然语言问题和基于 CNN 新闻文章的跨度答案。它通过四阶段收集流程强调推理能力,导致人类与最先进神经模型之间存在显著的性能差距(F1 差值为 0.198),凸显了其在推动机器阅读理解系统发展方面的挑战性。

ABSTRACT

We present NewsQA, a challenging machine comprehension dataset of over 100,000 human-generated question-answer pairs. Crowdworkers supply questions and answers based on a set of over 10,000 news articles from CNN, with answers consisting of spans of text from the corresponding articles. We collect this dataset through a four-stage process designed to solicit exploratory questions that require reasoning. A thorough analysis confirms that NewsQA demands abilities beyond simple word matching and recognizing textual entailment. We measure human performance on the dataset and compare it to several strong neural models. The performance gap between humans and machines (0.198 in F1) indicates that significant progress can be made on NewsQA through future research. The dataset is freely available at https://datasets.maluuba.com/NewsQA.

研究动机与目标

  • 创建一个大规模、自然语言的机器阅读理解数据集,以捕捉超越简单词面匹配的复杂推理能力。
  • 通过使用人类提出的探索性问题,解决现有数据集的局限性——即规模过小或为人工生成——以弥补这些不足。
  • 构建一个反映现实世界信息检索行为的数据集,要求在文档跨度之间进行综合与推理。
  • 提供一个基准,揭示当前神经网络模型在推理与理解任务中的局限性。
  • 通过一个具有挑战性且贴近现实的数据集,推动未来构建更具理解力的人工智能系统的研究。

提出的方法

  • 采用四阶段众包流程,基于 CNN 新闻文章,从众包工作者处获取探索性、基于好奇心的问题。
  • 将问题和答案作为原始文章中的跨度级文本摘录进行收集,确保答案可直接从文本中提取。
  • 设计收集流程以鼓励问题与答案在词汇和句法层面的差异,减少对表面匹配的依赖。
  • 引入“无答案”选项,用于文章中无答案的问题,以提升真实感与挑战性。
  • 使用逆句频(isf)作为基线方法,评估句子级答案检索性能,分别在 NewsQA 和人工延长的 SQuAD 文章上进行测量。
  • 在保留的开发集上使用标准指标(EM、F1、BLEU、CIDEr)评估模型性能,比较不同答案类型和推理类别下的表现。

实验结果

研究问题

  • RQ1一个大规模、由人类提出、强调推理的机器阅读理解数据集,是否能提升对神经网络问答模型的评估效果?
  • RQ2当面对需要推理的复杂自然语言问题时,当前神经网络模型在多大程度上无法超越表面匹配的泛化能力?
  • RQ3NewsQA 上人类与模型之间的性能差距与 SQuAD 相比如何?这对未来模型开发有何启示?
  • RQ4增加文档长度是否显著降低简单检索基线方法(如逆句频,isf)的性能?这是否真实反映了 NewsQA 的难度?
  • RQ5不同答案类型(如命名实体与描述性跨度)和不同推理类型(如词面匹配与综合推理)如何影响模型在 NewsQA 上的表现?

主要发现

  • 人类在 NewsQA 上的 F1 得分为 0.820,显著优于最佳神经网络模型(BARB)的 F1 得分 0.622,两者之间存在 0.198 的 F1 差距。
  • NewsQA 上的性能差距(F1 差值 0.198)是 SQuAD 上差距(F1 差值 0.098)的两倍以上,表明 NewsQA 对当前模型构成显著更大的挑战。
  • 基线模型 BARB 使用 isf 方法在 NewsQA 上的句子级准确率仅为 35.4%,而在 SQuAD 上为 79.6%,即使将 SQuAD 文章人工延长至与 NewsQA 平均长度相当,该差距依然显著。
  • 在需要综合与推理的问题上,模型性能最低,F1 分数相比词面匹配任务显著下降,表明其在追踪长距离依赖关系方面存在困难。
  • 人类在模糊和不完整问题上的表现优于模型,这一现象在 SQuAD 中并未观察到,表明 NewsQA 更好地捕捉了现实世界理解的复杂性。
  • 该数据集包含 119,633 个问题,分布在 12,744 篇文章中,其中 18.5% 的问题在文章中无答案(即无答案跨度),且答案通常跨越多个词或短语,进一步增加了复杂性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。