[论文解读] CREAK: A Dataset for Commonsense Reasoning over Entity Knowledge
CREAK 引入了一个包含 13k 条 claim 的数据集,将实体知识与常识推理联系起来,评估闭卷模型和检索增强模型,并展示了在域内训练带来可观提升,但与人类表现仍存在差距。
Most benchmark datasets targeting commonsense reasoning focus on everyday scenarios: physical knowledge like knowing that you could fill a cup under a waterfall [Talmor et al., 2019], social knowledge like bumping into someone is awkward [Sap et al., 2019], and other generic situations. However, there is a rich space of commonsense inferences anchored to knowledge about specific entities: for example, deciding the truthfulness of a claim "Harry Potter can teach classes on how to fly on a broomstick." Can models learn to combine entity knowledge with commonsense reasoning in this fashion? We introduce CREAK, a testbed for commonsense reasoning about entity knowledge, bridging fact-checking about entities (Harry Potter is a wizard and is skilled at riding a broomstick) with commonsense inferences (if you're good at a skill you can teach others how to do it). Our dataset consists of 13k human-authored English claims about entities that are either true or false, in addition to a small contrast set. Crowdworkers can easily come up with these statements and human performance on the dataset is high (high 90s); we argue that models should be able to blend entity knowledge and commonsense reasoning to do well here. In our experiments, we focus on the closed-book setting and observe that a baseline model finetuned on existing fact verification benchmark struggles on CREAK. Training a model on CREAK improves accuracy by a substantial margin, but still falls short of human performance. Our benchmark provides a unique probe into natural language understanding models, testing both its ability to retrieve facts (e.g., who teaches at the University of Chicago?) and unstated commonsense knowledge (e.g., butlers do not yell at guests).
研究动机与目标
- 推动在 NLP 系统中联合实体知识与常识推理的需求。
- 创建一个可扩展的基准,使关于现实世界实体的推断同时需要事实知识与常识推断。
- 评估基线模型、检索增强模型以及域内训练模型,以评估它们在面向实体的常识任务上的能力。
- 分析数据集特性、潜在伪影以及训练动态,以理解 CREAK 的挑战点。
提出的方法
- 众包工作者就 2.7k 个实体生成 13k 条英文 claim,标注为真/假,并具对比集(200 条成员)
- 这些 claim 时自 Wikipedia 实体生成,涵盖多种推理类型(检索、常识,或两者皆有)。
- 严格的数据收集流程包括标注者给出的理由说明,以及训练集/评估集实体不重叠,以降低伪影。
- 通过词级统计和 Bonferroni 校正的检验来量化伪影,评估虚假相关。
- 评估使用闭卷模型(RoBERTa 变体、SVM-TF-IDF、T5-3b)以及检索增强模型(DPR 配合 Wikipedia 段落)。
- 实验覆盖 Zero-Shot、In-Domain 和 Finetuning 设置,以衡量迁移与域内提升。
实验结果
研究问题
- RQ1模型是否能够将实体知识与常识推理结合起来,以验证关于现实世界实体的主张?
- RQ2闭卷模型与检索增强模型在 CREAK 上的表现如何?它们的表现与人类基线相比如何?
- RQ3模型规模和外部知识检索对 CREAK 表现的影响如何,尤其是在对比集上?
- RQ4数据集存在哪些伪影,以及训练动态如何反映 CREAK 主张的难度?
主要发现
- 一个更大、在域内训练的模型(T5-3b)在基线中实现了最高的闭卷准确率,但仍落后于人类,尤其是在对比集上。
- 检索增强模型在闭卷基线之上提升了表现,其中 DPR 加 RoBERTa-Large 在开发/测试集上达到较高的准确率,但在对比集上仍未达到人类表现。
- 从现有数据集的迁移有帮助(尤其是 FEVER_KILT),但域内 CREAK 训练带来最强的提升。
- 主张中的实体存在很重要;移除实体会使 RoBERTa-Large 的性能下降大约 10 点。
- 错误与伪影存在但相对有限;CREAK 展示了多样化的推理类型,并且检索推理与常识推理有较大比例混合(样本中 54% 为混合)。
- 即使有外部知识,仍存在显著的人类表现差距,表明 CREAK 案例存在相当的内在推理挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。