Skip to main content
QUICK REVIEW

[论文解读] ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension

Sheng Zhang, Xiaodong Liu|arXiv (Cornell University)|Oct 30, 2018
Topic Modeling参考文献 30被引用 215
一句话总结

本文介绍 ReCoRD,这是一个需要常识推理的大规模机器阅读理解数据集,显示人类显著优于现有最先进模型,并强调需要弥合的差距。

ABSTRACT

We present a large-scale dataset, ReCoRD, for machine reading comprehension requiring commonsense reasoning. Experiments on this dataset demonstrate that the performance of state-of-the-art MRC systems fall far behind human performance. ReCoRD represents a challenge for future research to bridge the gap between human and machine commonsense reading comprehension. ReCoRD is available at http://nlp.jhu.edu/record.

研究动机与目标

  • 激发对需要广泛常识推理、超越表面文本模式的阅读理解的需求。
  • 从新闻文章中自动生成一个包含段落、完形风格查询、答案的大规模基准数据集,以评估常识推理。
  • 应用筛选和人工验证,确保问题需要非平凡推理且表述明确。
  • 提供基线和人工性能,以量化常识性机器阅读理解中机器与人类之间的差距。

提出的方法

  • 从 CNN/Daily Mail 新闻文章自动生成 770k 个(段落、查询、答案)三元组。
  • 通过在引用段落中的前因的句子中将命名实体替换为 X,形成完形风格的查询。
  • 使用强大的MRC模型(SAN)筛选出简单的三元组,保留 244k 个更难的三元组。
  • 通过众包进行人工验证,以消除歧义并确保正确答案,得到跨训练/开发/测试划分的 120,730 个查询集。
  • 评估多种MRC模型(包括带/不带ELMo的DocQA、QANet、ASReader、SAN、语言模型)以及人类在精确匹配和F1指标上的性能。

实验结果

研究问题

  • RQ1当前的 MRC 模型在需要常识推理的数据集上的表现如何?
  • RQ2在 ReCoRD 上,使用标准 MRC 架构时,人类与机器之间的性能差距有多大?
  • RQ3ReCoRD 中最常见的常识推理类型有哪些,模型在这些类型上的表现如何?
  • RQ4候选实体引导(完形设置)是否有帮助,数据构造如何影响难度?

主要发现

模型开发 EM测试 EM开发 F1测试 F1
人类91.2891.3191.6491.69
DocQA w/ ELMo44.1345.4445.3946.65
DocQA w/o ELMo36.5938.5237.8939.76
SAN38.1439.7739.0940.72
QANet35.3836.5136.7537.79
ASReader29.2429.8029.8030.35
LM16.7317.5717.4118.15
Random Guess18.4118.5519.0619.12
  • 人类在测试集上达到 91.31 的 EM 与 91.69 的 F1,而最佳的自动方法(带 ELMo 的 DocQA)在测试集上达到 46.65 的 F1 和 45.44 的 EM。
  • 基于 SAN 的筛选证实许多查询在各模型上都很难,分数显著低于人类。
  • 无监督语言模型在 ReCoRD 上的表现与随机猜测相近,表明领域知识存在缺口。
  • 从候选实体中提取答案(完形设置)在模型使用实体候选时,可能带来约6%的 OOC 减少的潜在收益。
  • 在抽样的 100 个查询中,75% 需要常识推理,主要类型包括概念知识和因果/朴素心理学推理。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。