[论文解读] Probing Prior Knowledge Needed in Challenging Chinese Machine Reading Comprehension.
本文介绍了C^3,这是首个自由格式的中文多项选择机器阅读理解数据集,源自汉语作为第二语言考试,包含13,369篇文档和19,577道问题。研究发现86.8%的问题需要文本之外的知识,尽管最先进模型达到68.5%的准确率,但与人类表现(96.0%)相比仍有显著差距,凸显了在机器阅读理解系统中更好地整合语言知识、领域知识和世界知识的迫切需求。
Machine reading comprehension tasks require a machine reader to answer questions relevant to the given document. In this paper, we present the first free-form multiple-Choice Chinese machine reading Comprehension dataset (C^3), containing 13,369 documents (dialogues or more formally written mixed-genre texts) and their associated 19,577 multiple-choice free-form questions collected from Chinese-as-a-second-language examinations. We present a comprehensive analysis of the prior knowledge (i.e., linguistic, domain-specific, and general world knowledge) needed for these real-world problems. We implement rule-based and popular neural methods and find that there is still a significant performance gap between the best performing model (68.5%) and human readers (96.0%), especially on problems that require prior knowledge. We further study the effects of distractor plausibility and data augmentation based on translated relevant datasets for English on model performance. We expect C^3 to present great challenges to existing systems as answering 86.8% of questions requires both knowledge within and beyond the accompanying document, and we hope that C^3 can serve as a platform to study how to leverage various kinds of prior knowledge to better understand a given written or orally oriented text. C^3 is available at this https URL.
研究动机与目标
- 开发一个全面的中文机器阅读理解数据集,以反映真实的第二语言测试场景。
- 分析回答阅读理解问题所必需的先验知识类型——语言知识、领域特定知识以及一般世界知识。
- 评估神经网络模型与人类读者在知识密集型阅读理解任务上的表现差距。
- 研究干扰项的可信度以及使用英文平行数据集进行数据增强对模型性能的影响。
提出的方法
- C^3数据集源自真实的汉语作为第二语言考试题目,涵盖对话和多种体裁的书面文本。
- 问题为自由格式的多项选择题,要求对文本有细致的理解与推理,而不仅仅是提取性回答。
- 采用基于规则和神经网络的模型在该数据集上进行性能基准测试。
- 通过评估干扰项对模型决策过程的真实程度,分析干扰项的可信度。
- 利用翻译后的英文机器阅读理解数据集进行数据增强,以提升零样本泛化能力。
- 对知识类型进行全面分析,以分类每道问题的认知需求。
实验结果
研究问题
- RQ1在中文机器阅读理解中,回答问题最常需要哪种类型的先验知识——语言知识、领域特定知识,还是普遍世界知识?
- RQ2神经网络模型在知识密集型中文阅读理解任务上的表现与人类读者相比如何?
- RQ3干扰项的可信度在多大程度上影响模型在多项选择机器阅读理解问题上的表现?
- RQ4使用翻译后的英文机器阅读理解数据集进行数据增强,能否提升在C^3基准上的零样本性能?
主要发现
- 表现最佳的神经网络模型准确率为68.5%,远低于人类的96.0%,表明在知识整合方面存在显著差距。
- C^3数据集中86.8%的问题需要文本内及文本外的知识,凸显了该数据集的复杂性。
- 当干扰项更具可信度时,模型性能出现显著下降,表明模型对问题设计敏感。
- 使用翻译后的英文数据集进行数据增强,仅带来适度的零样本泛化性能提升,但未能弥合人类与模型之间的差距。
- 分析显示,语言知识和世界知识是该数据集中最常需要的先验知识类型。
- 与神经网络模型相比,基于规则的模型表现较差,尤其在需要世界知识的问题上,凸显了符号方法的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。