QUICK REVIEW

[论文解读] ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension

Sheng Zhang, Xiaodong Liu|arXiv (Cornell University)|Oct 30, 2018

Topic Modeling参考文献 30被引用 215

一句话总结

本文介绍 ReCoRD，这是一个需要常识推理的大规模机器阅读理解数据集，显示人类显著优于现有最先进模型，并强调需要弥合的差距。

ABSTRACT

We present a large-scale dataset, ReCoRD, for machine reading comprehension requiring commonsense reasoning. Experiments on this dataset demonstrate that the performance of state-of-the-art MRC systems fall far behind human performance. ReCoRD represents a challenge for future research to bridge the gap between human and machine commonsense reading comprehension. ReCoRD is available at http://nlp.jhu.edu/record.

研究动机与目标

激发对需要广泛常识推理、超越表面文本模式的阅读理解的需求。
从新闻文章中自动生成一个包含段落、完形风格查询、答案的大规模基准数据集，以评估常识推理。
应用筛选和人工验证，确保问题需要非平凡推理且表述明确。
提供基线和人工性能，以量化常识性机器阅读理解中机器与人类之间的差距。

提出的方法

从 CNN/Daily Mail 新闻文章自动生成 770k 个（段落、查询、答案）三元组。
通过在引用段落中的前因的句子中将命名实体替换为 X，形成完形风格的查询。
使用强大的MRC模型（SAN）筛选出简单的三元组，保留 244k 个更难的三元组。
通过众包进行人工验证，以消除歧义并确保正确答案，得到跨训练/开发/测试划分的 120,730 个查询集。
评估多种MRC模型（包括带/不带ELMo的DocQA、QANet、ASReader、SAN、语言模型）以及人类在精确匹配和F1指标上的性能。

实验结果

研究问题

RQ1当前的 MRC 模型在需要常识推理的数据集上的表现如何？
RQ2在 ReCoRD 上，使用标准 MRC 架构时，人类与机器之间的性能差距有多大？
RQ3ReCoRD 中最常见的常识推理类型有哪些，模型在这些类型上的表现如何？
RQ4候选实体引导（完形设置）是否有帮助，数据构造如何影响难度？

主要发现

模型	开发 EM	测试 EM	开发 F1	测试 F1
人类	91.28	91.31	91.64	91.69
DocQA w/ ELMo	44.13	45.44	45.39	46.65
DocQA w/o ELMo	36.59	38.52	37.89	39.76
SAN	38.14	39.77	39.09	40.72
QANet	35.38	36.51	36.75	37.79
ASReader	29.24	29.80	29.80	30.35
LM	16.73	17.57	17.41	18.15
Random Guess	18.41	18.55	19.06	19.12

人类在测试集上达到 91.31 的 EM 与 91.69 的 F1，而最佳的自动方法（带 ELMo 的 DocQA）在测试集上达到 46.65 的 F1 和 45.44 的 EM。
基于 SAN 的筛选证实许多查询在各模型上都很难，分数显著低于人类。
无监督语言模型在 ReCoRD 上的表现与随机猜测相近，表明领域知识存在缺口。
从候选实体中提取答案（完形设置）在模型使用实体候选时，可能带来约6%的 OOC 减少的潜在收益。
在抽样的 100 个查询中，75% 需要常识推理，主要类型包括概念知识和因果/朴素心理学推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。