QUICK REVIEW

[论文解读] Evaluating Commonsense in Pre-trained Language Models

Xuhui Zhou, Yue Zhang|arXiv (Cornell University)|Nov 27, 2019

Topic Modeling被引用 27

一句话总结

本文通过七个多样化的基准测试评估了预训练语言模型（GPT、BERT、XLNet、RoBERTa）中的常识知识，通过困惑度评分衡量其区分语义有效与无效句子的能力。主要发现表明，尽管语言建模目标提升了常识理解能力，但模型在多步推理任务中仍表现不佳，且表现出表面化推理特征，这通过在具有相关逻辑的双重测试用例中预测不一致得以揭示。

ABSTRACT

Contextualized representations trained over large raw text data have given remarkable improvements for NLP tasks including question answering and reading comprehension. There have been works showing that syntactic, semantic and word sense knowledge are contained in such representations, which explains why they benefit such tasks. However, relatively little work has been done investigating commonsense knowledge contained in contextualized representations, which is crucial for human question answering and reading comprehension. We study the commonsense ability of GPT, BERT, XLNet, and RoBERTa by testing them on seven challenging benchmarks, finding that language modeling and its variants are effective objectives for promoting models' commonsense ability while bi-directional context and larger training set are bonuses. We additionally find that current models do poorly on tasks require more necessary inference steps. Finally, we test the robustness of models by making dual test cases, which are correlated so that the correct prediction of one sample should lead to correct prediction of the other. Interestingly, the models show confusion on these test cases, which suggests that they learn commonsense at the surface rather than the deep level. We release a test set, named CATs publicly, for future research.

研究动机与目标

系统评估预训练上下文化语言模型中编码的常识知识的程度与质量。
识别哪种预训练目标和模型架构最有利于常识推理。
探究模型在需要多步推理的推理任务中是否表现稳健。
通过在双重测试用例上测试一致性，评估模型在做出常识判断时是依赖深层语义理解还是浅层线索。

提出的方法

将七个多样化的常识基准（如WSC、SWAG、HellaSwag）统一为一致格式，以支持基于困惑度的评估。
通过比较正确与错误句子对的困惑度来衡量模型性能，使用对数似然比分析决策过程。
针对WSC、SM和ARCT使用四种扰动类型（Add、Del、Swap、Sub）构建每模型75个双重测试实例。
通过检查模型在原始实例和双重实例上是否给出相同预测（正确/错误）来评估一致性。
通过qk值可视化每个词对决策的贡献，以分析模型置信度与推理模式。
发布了一个名为CATs的公开测试集，供未来研究使用。

实验结果

研究问题

RQ1预训练语言模型（如BERT、GPT、XLNet和RoBERTa）在多大程度上具备常识知识？
RQ2不同的预训练目标（如自回归与双向）如何影响常识推理？
RQ3模型在需要多步推理的推理任务中是否具备良好的泛化能力？
RQ4当逻辑结构保持不变但表面形式被改变时，模型对对抗性扰动的鲁棒性如何？
RQ5模型在做出常识判断时，是依赖浅层线索还是深层语义理解？

主要发现

如GPT和RoBERTa中采用的语言建模目标在学习常识知识方面是有效的，其中双向模型（如BERT和RoBERTa）表现出更优的性能。
更大的训练数据集和双向上下文提供了可测量的常识推理优势，但尚不足以实现稳健表现。
模型在需要超过一个推理步骤的任务中表现不佳，表明其在复杂推理方面存在局限。
在双重测试用例中的一致性——即在一个实例上预测正确则在另一个实例上也应正确——在所有模型中均较低，仅Swap方法表现出高于随机水平的一致性。
qk值的可视化分析表明，模型对扰动（尤其是Add、Del和Sub方法）感到困惑，表明其更依赖表面模式而非深层语义理解。
表现最佳的模型RoBERTa-large在Sub方法上的一致性仅为44%，远低于人类水平的鲁棒性，表明其在推理深度上存在根本性差距。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。