[论文解读] RACE: Large-scale ReAding Comprehension Dataset From Examinations
RACE 引入一个大型、由人类创建的阅读理解数据集,来自中国中学/高中英语考试,强调推理密集型问题和广泛主题覆盖,以挑战并评估机器理解系统。它提供基线和人工上限,显示出最先进模型与人类表现之间存在显著差距。
We present RACE, a new dataset for benchmark evaluation of methods in the reading comprehension task. Collected from the English exams for middle and high school Chinese students in the age range between 12 to 18, RACE consists of near 28,000 passages and near 100,000 questions generated by human experts (English instructors), and covers a variety of topics which are carefully designed for evaluating the students' ability in understanding and reasoning. In particular, the proportion of questions that requires reasoning is much larger in RACE than that in other benchmark datasets for reading comprehension, and there is a significant gap between the performance of the state-of-the-art models (43%) and the ceiling human performance (95%). We hope this new dataset can serve as a valuable resource for research and evaluation in machine comprehension. The dataset is freely available at http://www.cs.cmu.edu/~glai1/data/race/ and the code is available at https://github.com/qizhex/RACE_AR_baselines.
研究动机与目标
- 激发对比现有基准更具挑战性、更具多样性的阅读理解数据集的需求。
- 创建一个以英语考试为基础、面向 12–18 岁的大规模人工生成问答数据集,以评估推理能力。
- 确保覆盖广泛的主题与风格,并提供非基于文本段落的选项,以要求更深层次的理解。
提出的方法
- 收集中国中学/高中水平(年龄 12–18 岁)的英语考试篇章和题目。
- 筛选并清理数据,去除非独立存在的题目、基于图片的答案,以及格式不一致的问题。
- 使用人工生成的问题以及四选一的多项选择题,其中选项可能不是段落中的文本片段。
- 将数据分为 RACE-M(初中)和 RACE-H(高中),并设置训练、开发、测试集。
- 评估基线模型,包括 Sliding Window、Stanford Attentive Reader 和 Gated-Attention Reader,使用 SGD 训练与 Glove 嵌入。
- 通过众包标注和对问题有效性的人工验证来提供人类上限估计。
实验结果
研究问题
- RQ1与现有问答数据集相比,RACE 所需推理类型的分布与难度如何?
- RQ2前沿机器理解模型在这一考试派生的数据集上的表现相对于人类表现如何?
- RQ3RACE 的更广泛领域/风格覆盖和非片段型问题是否增加了对多句和跨句推理的需求?
- RQ4RACE 中推理细分(细节、全局、概括、态度分析、世界知识)的特征和比例是多少?
主要发现
- RACE 包含 27,933 条段落和 97,687 道题,其中相当大比例需要超出表面对词的推理。
- 人工上限表现很高(约 95%),而最先进模型明显滞后(例如 Stanford AR、GA 在 RACE 上约 43–44%),表明仍有大量提升空间。
- 推理是 RACE 的主导挑战,其单句和多句推理的比例高于 CNN/Daily Mail、SQUAD 和 NEWSQA。
- 在 RACE 中的两种新颖推理细分——段落概括和态度分析——在之前的大型数据集中尚未被充分挖掘。
- RACE 展现出广泛的领域/风格覆盖(新闻、故事、广告、传记、哲学等),使其成为通用阅读理解任务的多功能基准。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。