QUICK REVIEW

[论文解读] MCScript: A Novel Dataset for Assessing Machine Comprehension Using Script Knowledge

Simon Ostermann, Ashutosh Modi|arXiv (Cornell University)|Mar 14, 2018

Topic Modeling参考文献 21被引用 67

一句话总结

MCScript 提供了大量需要常识性剧本知识来回答的叙事与问题的语料库，从而评估日常情景下的机器理解，并参与 SemEval 2018。大约 27.4% 的问题需要基于剧本的推理。

ABSTRACT

We introduce a large dataset of narrative texts and questions about these texts, intended to be used in a machine comprehension task that requires reasoning using commonsense knowledge. Our dataset complements similar datasets in that we focus on stories about everyday activities, such as going to the movies or working in the garden, and that the questions require commonsense knowledge, or more specifically, script knowledge, to be answered. We show that our mode of data collection via crowdsourcing results in a substantial amount of such inference questions. The dataset forms the basis of a shared task on commonsense and script knowledge organized at SemEval 2018 and provides challenging test cases for the broader natural language understanding community.

研究动机与目标

促使在显式常识和剧本知识下评估机器理解
创建一个大型、众包的叙事与情景题数据集
通过验证和筛选确保高质量数据
提供一个适用于共享任务（SemEval 2018）的外在评测框架
量化剧本知识在回答问题中的作用

提出的方法

收集以情景为中心的问题，而非文本特定的问题，以鼓励剧本推理
为 110 个情景撰写儿童解释型叙事，约 2,100 篇文本
众包 14,074 个问题，带有类别（文本型、剧本型、未知、不合适），每个问题有 3-5 个候选答案
后处理以过滤叙事、拼写检查，将代词规范为 they/ theirs
使用多数投票和词汇规范化，在每个文本-问题对中选择一个正确答案和一个错误答案
将数据分为训练集（9,731 个问题，1,470 篇文本）、开发集（1,411 个问题，219 篇文本）和测试集（2,797 个问题，430 篇文本），并保留五个情景用于测试

实验结果

研究问题

RQ1MCScript 数据集中有多少需要常识性剧本知识才能回答？
RQ2基线模型和神经模型在文本型问题与剧本型问题上的表现如何？
RQ3问题类型的分布情况及其对性能的影响？
RQ4剧本知识是否可以在外在阅读理解框架中得到有效评估？

主要发现

最终数据集包含 13,939 个问题，其中 3,827 个（27.4%）需要常识知识。
人工标注者在 98.2% 的情况下与黄金标准一致，表明可靠性较高。
训练/开发/测试划分：9,731 个问题在 1,470 篇文本（训练），1,411 个问题在 219 篇文本（开发），2,797 个问题在 430 篇文本（测试）。
基线的词汇重叠和滑动窗口模型的表现不及神经模型；注意力阅读器略优于双线性模型（合计：72.0% 对 70.2%）。
在文本型问题上，注意力阅读器的表现为 70.9%（文本）和 75.2%（常识），总分 72.0%；在纯文本问题上，若干基线的结果较低。
对于是/否问题，各模型表现均较差，凸显需要比表面文本更复杂的推理能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。