QUICK REVIEW

[论文解读] ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning

Weihao Yu, Zihang Jiang|arXiv (Cornell University)|Feb 11, 2020

Topic Modeling参考文献 40被引用 127

一句话总结

ReClor 引入了一个面向逻辑推理的大型多项选择阅读理解数据集，将测试数据分成偏向易 (EASY) 与非偏向难 (HARD) 的两组，并显示最先进的模型在 EASY 上表现出色但在 HARD 上挣扎，迁移学习（RACE 预训练）带来显著提升，但在 HARD 上仍低于人类表现。

ABSTRACT

Recent powerful pre-trained language models have achieved remarkable performance on most of the popular datasets for reading comprehension. It is time to introduce more challenging datasets to push the development of this field towards more comprehensive reasoning of text. In this paper, we introduce a new Reading Comprehension dataset requiring logical reasoning (ReClor) extracted from standardized graduate admission examinations. As earlier studies suggest, human-annotated datasets usually contain biases, which are often exploited by models to achieve high accuracy without truly understanding the text. In order to comprehensively evaluate the logical reasoning ability of models on ReClor, we propose to identify biased data points and separate them into EASY set while the rest as HARD set. Empirical results show that state-of-the-art models have an outstanding ability to capture biases contained in the dataset with high accuracy on EASY set. However, they struggle on HARD set with poor performance near that of random guess, indicating more research is needed to essentially enhance the logical reasoning ability of current models.

研究动机与目标

介绍 ReClor，一个需要从 GMAT/LSAT 考试来源的阅读理解数据集以实现逻辑推理。
通过将偏向数据（EASY）与非偏向数据（HARD）分开来识别数据偏差，以全面评估推理能力。
评估最先进的预训练模型在 ReClor 上的表现，以评估对数据偏差的依赖程度与真实推理能力。
通过在 ReClor 训练前对 RACE 进行微调来研究迁移学习，以评估在推理任务中的收益。

提出的方法

从 GMAT/LSAT 来源组装 6,138 道逻辑推理题，并通过打乱选项将其转换为四选项 MC 形式。
通过仅输入答案选项给强基线模型（多种种子）并取交集预测来定义 EASY 集，来识别偏向数据。
在 EASY 与 HARD 子集上比较模型表现，以衡量推理能力与偏差利用。
在不同输入设置（C/Q/A）以及有/无 RACE 预训练的情况下，训练并评估基线模型（GPT、GPT-2、BERT、XLNet、RoBERTa）。
分析问题类型分布（17 种类型）并考察 HARD 与 EASY 的表现差异，以理解推理挑战。
通过在 ReClor 之前对 RACE 进行微调来演示迁移学习，并报告提升，特别是在 HARD 上。

实验结果

研究问题

RQ1当前的 NLP 模型是否能够在一个由标准化考试构建的数据集上进行真正的逻辑推理？
RQ2最先进的模型是否主要利用数据集偏差，EASY/HARD 的分割是否能揭示这种行为？
RQ3在相关考试风格数据集（RACE）上进行预训练或微调是否会提升 ReClor 的推理表现，特别是在 HARD 情况下？

主要发现

ReClor 的规模与类似的 MRC 数据集相当，拥有大量词汇量和相对简洁的上下文段落。
模型在 EASY 集上表现良好（偏差驱动的问题），但在 HARD 集上表现吃力，甚至接近随机猜测。
基于 Transformer 的模型在 EASY 上的准确率较高（约 60% 以上），但在 HARD 上仅达到约 30-40%，表明真实的逻辑推理能力有限。
在 ReClor 之前对 RACE 的微调带来显著提升，尤其是在 HARD 上，尽管仍低于研究生水平/人类表现。
人类在 EASY 和 HARD 上的表现更加稳定，凸显机器偏差利用与真实推理之间的差距。
分析显示偏差信号包括词汇线索和选项长度差异，某些问题类型（如增强/削弱、角色）对 HARD 尤为具有挑战性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。