[论文解读] What does BERT Learn from Multiple-Choice Reading Comprehension Datasets?
本文通过两种探针方法——不可读数据攻击和无法回答数据训练——研究了 BERT 在多项选择阅读理解(MCRC)数据集上学习的内容。结果表明,BERT 高度依赖关键词匹配和统计伪影,而非语义理解或句法结构,即使在缺乏正确上下文或词序的情况下也能取得高性能,揭示了当前 MCRC 基准测试的根本性局限。
Multiple-Choice Reading Comprehension (MCRC) requires the model to read the passage and question, and select the correct answer among the given options. Recent state-of-the-art models have achieved impressive performance on multiple MCRC datasets. However, such performance may not reflect the model's true ability of language understanding and reasoning. In this work, we adopt two approaches to investigate what BERT learns from MCRC datasets: 1) an un-readable data attack, in which we add keywords to confuse BERT, leading to a significant performance drop; and 2) an un-answerable data training, in which we train BERT on partial or shuffled input. Under un-answerable data training, BERT achieves unexpectedly high performance. Based on our experiments on the 5 key MCRC datasets - RACE, MCTest, MCScript, MCScript2.0, DREAM - we observe that 1) fine-tuned BERT mainly learns how keywords lead to correct prediction, instead of learning semantic understanding and reasoning; and 2) BERT does not need correct syntactic information to solve the task; 3) there exists artifacts in these datasets such that they can be solved even without the full context.
研究动机与目标
- 探究 BERT 在 MCRC 数据集上取得的高性能是否反映了真正的语言理解,还是依赖于统计模式。
- 评估 BERT 是否依赖于篇章和问题输入中的句法结构或语义连贯性。
- 评估 BERT 是否能在缺乏有意义上下文的情况下学习回答问题,以揭示数据集伪影的存在。
- 揭示 MCRC 基准测试可能因虚假相关性而产生误导的程度。
提出的方法
- 通过在篇章或干扰项中添加随机排列、无法理解的句子,实施不可读数据攻击,以测试 BERT 的鲁棒性。
- 采用 AddSent2Opt-Shuffle 方法,将干扰项中的词语随机打乱,生成对抗性输入。
- 在部分删除或打乱输入(如缺失篇章或问题)的情况下训练 BERT,以评估在缺乏句法或语义结构时的性能表现。
- 通过测量不可读攻击下的性能下降,推断 BERT 对关键词匹配的依赖程度。
- 分析当逐步将对抗性序列中的词语添加到干扰项时,预测概率的变化情况。
- 计算性能下降与答案长度、序列长度变化和打乱程度等因素之间的皮尔逊积矩相关系数,以隔离关键影响因素。
实验结果
研究问题
- RQ1BERT 在 MCRC 任务中在多大程度上依赖关键词匹配而非语义理解?
- RQ2BERT 对篇章或干扰项中不可读或句法无效输入的鲁棒性如何?
- RQ3当在缺乏语义连贯性的无法回答或打乱输入上进行训练时,BERT 是否仍能在 MCRC 任务中实现高性能?
- RQ4数据集伪影和统计线索在 BERT 成功应对现有 MCRC 基准测试中起到了何种作用?
- RQ5BERT 在 MCRC 数据集上的表现是否依赖于正确的句法结构或词序?
主要发现
- 当在篇章或干扰项中添加不可读句子时,BERT 的性能显著下降,表明其对关键词匹配存在严重依赖。
- 在无法回答数据训练下,即使仅保留关键词,BERT 仍能取得高准确率,表明其利用的是数据集伪影而非学习语义。
- BERT 在打乱输入上表现良好,表明其在解决 MCRC 任务时并不要求正确的词序或句法结构。
- 不可读攻击下的性能下降与序列长度变化无强相关性,表明词序破坏是关键因素,而非长度变化。
- 将对抗性序列中的词语逐步添加到干扰项中,会显著改变预测概率,其中 'number' 或 'counter' 等关键词对模型输出具有强烈影响。
- 打乱程度与模型性能之间存在显著负相关性,表明更高的干扰程度导致更大的性能下降。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。