QUICK REVIEW

[论文解读] Who did What: A Large-Scale Person-Centered Cloze Dataset

Takeshi Onishi, Hai Wang|arXiv (Cornell University)|Aug 19, 2016

Topic Modeling参考文献 1被引用 29

一句话总结

本论文提出了Who-did-What（WDW）数据集，这是一个大规模、以人物为中心的完形填空阅读理解数据集，包含超过20万个多项选择题，题目源自两篇独立的新闻文章——一篇作为文章内容，另一篇作为问题来源——且未经过摘要处理或匿名化处理。通过过滤策略抑制简单基线模型，使人类表现（84%）与最先进模型表现（55–65%）之间形成16%的性能差距，从而为神经阅读理解系统提供更具挑战性的基准测试。

ABSTRACT

We have constructed a new "Who-did-What" dataset of over 200,000 fill-in-the-gap (cloze) multiple choice reading comprehension problems constructed from the LDC English Gigaword newswire corpus. The WDW dataset has a variety of novel features. First, in contrast with the CNN and Daily Mail datasets (Hermann et al., 2015) we avoid using article summaries for question formation. Instead, each problem is formed from two independent articles --- an article given as the passage to be read and a separate article on the same events used to form the question. Second, we avoid anonymization --- each choice is a person named entity. Third, the problems have been filtered to remove a fraction that are easily solved by simple baselines, while remaining 84% solvable by humans. We report performance benchmarks of standard systems and propose the WDW dataset as a challenge task for the community.

研究动机与目标

构建一个大规模、可扩展的阅读理解数据集，避免依赖文章摘要，以支持更真实、更复杂的推理任务。
通过使用两篇独立的文章分别作为文章内容和问题来源，提升完形填空类数据集的语义与句法复杂度，从而提高挑战性。
通过抑制简单基线模型（如最常见人物、首次提及人物等）来提升人类与机器之间的性能差距，推动模型实现更深层次的语义理解。
提供一个更贴近真实世界阅读理解任务的基准，保留命名实体而不进行匿名化处理。
建立评估神经阅读理解模型的新标准，使用一个能体现人类与机器性能显著差距的数据集。

提出的方法

从LDC英语Gigaword语料库中选取一篇问题文章，删除其首句中的一个人物命名实体，形成完形填空问题。
利用信息检索系统，检索与问题首句具有高度语义重叠的相关文章内容，确保上下文相关性。
从检索到的文章内容中提取命名实体作为答案选项，保留真实人物姓名，不进行匿名化处理。
应用抑制算法，移除有利于简单基线模型（如最常见人物、首次提及人物、n-gram、unigram模型）的问题，通过优化使基线模型的成功率不超过随机水平（k = 0.32）。
按照时间顺序将最终数据集划分为训练集、验证集和测试集（最近20,000道题作为验证/测试集），以最小化语义重叠。
提供一个抑制程度较低的宽松训练集，以支持模型预训练；而主训练/验证/测试集则经过完全抑制，用于评估。

实验结果

研究问题

RQ1能否从非摘要化、独立的新闻文章中构建大规模阅读理解数据集，以更真实地反映现实世界的阅读任务？
RQ2与CNN/Daily Mail等基于摘要的数据集相比，使用两篇独立文章分别作为文章内容和问题来源，是否能显著提升语义与句法层面的挑战性？
RQ3在保持人类可解性的前提下，对简单基线模型的抑制在多大程度上能提升完形填空数据集的难度？
RQ4在该新数据集上，人类与最先进神经网络模型之间的性能差距与现有基准相比如何？
RQ5由于未进行匿名化处理且使用真实命名实体，是否能提升阅读理解任务的真实感与挑战性？

主要发现

WDW数据集包含185,978个训练样本、10,000个验证样本和10,000个测试样本，每道题平均有3.5个选项，每段文章长度为325–378个词符。
经过抑制处理后，简单基线模型（如最常见人物、首次提及人物）的性能从约60%下降至约32%，与随机基线水平（k = 0.32）一致。
人类在测试集上的表现达到84%，显著高于CNN数据集报告的75%和CBT数据集的82%，表明人类在该数据集上具备强大的理解能力。
Attentive Reader在WDW上的表现为55%，低于其在CNN上的63%；Attention Sum Reader在WDW上得分为59%，低于其在CNN上的70%，表明性能普遍下降10–15%。
Stanford Reader在WDW上得分为64%，低于其在CNN上的73%；Gated-Attention Reader在WDW上得分为60%，低于其在CNN上的74%，表明依赖答案频率的模型更易受抑制影响。
人类（84%）与最佳神经网络模型（宽松训练集上为65%，完全抑制下为60%）之间的性能差距显著，证实该数据集对当前模型具有更高的挑战性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。