QUICK REVIEW
[论文解读] ReCoRD: Bridging the Gap between Human and Machine Commonsense Reading Comprehension
Sheng Zhang, Xiaodong Liu|arXiv (Cornell University)|Oct 30, 2018
Topic Modeling参考文献 30被引用 215
一句话总结
本文介绍 ReCoRD,这是一个需要常识推理的大规模机器阅读理解数据集,显示人类显著优于现有最先进模型,并强调需要弥合的差距。
ABSTRACT
We present a large-scale dataset, ReCoRD, for machine reading comprehension requiring commonsense reasoning. Experiments on this dataset demonstrate that the performance of state-of-the-art MRC systems fall far behind human performance. ReCoRD represents a challenge for future research to bridge the gap between human and machine commonsense reading comprehension. ReCoRD is available at http://nlp.jhu.edu/record.
研究动机与目标
- 激发对需要广泛常识推理、超越表面文本模式的阅读理解的需求。
- 从新闻文章中自动生成一个包含段落、完形风格查询、答案的大规模基准数据集,以评估常识推理。
- 应用筛选和人工验证,确保问题需要非平凡推理且表述明确。
- 提供基线和人工性能,以量化常识性机器阅读理解中机器与人类之间的差距。
提出的方法
- 从 CNN/Daily Mail 新闻文章自动生成 770k 个(段落、查询、答案)三元组。
- 通过在引用段落中的前因的句子中将命名实体替换为 X,形成完形风格的查询。
- 使用强大的MRC模型(SAN)筛选出简单的三元组,保留 244k 个更难的三元组。
- 通过众包进行人工验证,以消除歧义并确保正确答案,得到跨训练/开发/测试划分的 120,730 个查询集。
- 评估多种MRC模型(包括带/不带ELMo的DocQA、QANet、ASReader、SAN、语言模型)以及人类在精确匹配和F1指标上的性能。
实验结果
研究问题
- RQ1当前的 MRC 模型在需要常识推理的数据集上的表现如何?
- RQ2在 ReCoRD 上,使用标准 MRC 架构时,人类与机器之间的性能差距有多大?
- RQ3ReCoRD 中最常见的常识推理类型有哪些,模型在这些类型上的表现如何?
- RQ4候选实体引导(完形设置)是否有帮助,数据构造如何影响难度?
主要发现
| 模型 | 开发 EM | 测试 EM | 开发 F1 | 测试 F1 |
|---|---|---|---|---|
| 人类 | 91.28 | 91.31 | 91.64 | 91.69 |
| DocQA w/ ELMo | 44.13 | 45.44 | 45.39 | 46.65 |
| DocQA w/o ELMo | 36.59 | 38.52 | 37.89 | 39.76 |
| SAN | 38.14 | 39.77 | 39.09 | 40.72 |
| QANet | 35.38 | 36.51 | 36.75 | 37.79 |
| ASReader | 29.24 | 29.80 | 29.80 | 30.35 |
| LM | 16.73 | 17.57 | 17.41 | 18.15 |
| Random Guess | 18.41 | 18.55 | 19.06 | 19.12 |
- 人类在测试集上达到 91.31 的 EM 与 91.69 的 F1,而最佳的自动方法(带 ELMo 的 DocQA)在测试集上达到 46.65 的 F1 和 45.44 的 EM。
- 基于 SAN 的筛选证实许多查询在各模型上都很难,分数显著低于人类。
- 无监督语言模型在 ReCoRD 上的表现与随机猜测相近,表明领域知识存在缺口。
- 从候选实体中提取答案(完形设置)在模型使用实体候选时,可能带来约6%的 OOC 减少的潜在收益。
- 在抽样的 100 个查询中,75% 需要常识推理,主要类型包括概念知识和因果/朴素心理学推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。