[论文解读] Measuring and Improving Consistency in Pretrained Language Models
本文提出 ParaRel,用以通过同义改写的填空模式来衡量预训练语言模型(PLMs)的一致性,发现各模型之间存在广泛不一致,并提出基于 KL 散度的一致性损失以改善这一问题。
Consistency of a model -- that is, the invariance of its behavior under meaning-preserving alternations in its input -- is a highly desirable property in natural language processing. In this paper we study the question: Are Pretrained Language Models (PLMs) consistent with respect to factual knowledge? To this end, we create ParaRel, a high-quality resource of cloze-style query English paraphrases. It contains a total of 328 paraphrases for 38 relations. Using ParaRel, we show that the consistency of all PLMs we experiment with is poor -- though with high variance between relations. Our analysis of the representational spaces of PLMs suggests that they have a poor structure and are currently not suitable for representing knowledge robustly. Finally, we propose a method for improving model consistency and experimentally demonstrate its effectiveness.
研究动机与目标
- 评估在意义保持的同义改写下,PLMs 是否能保持一致的事实预测。
- 引入 ParaRel,一个基于高质量同义改写的基准,覆盖 38 个关系与 328 种模式。
- 在 BERT、RoBERTa 和 ALBERT 上评估知识提取与一致性。
- 提出并验证一种一致性损失,以提升模型在未见关系上的一致性。
提出的方法
- 使用数据三元组 D_i 和关系 r_i 的同义改写模式 P_i,定义一个一致性框架,并将候选集限制为知识库对象。
- 通过扩展基础模式,纳入 LPAQA 的改写、基于 SPIKE 的模式和专家策划,来构建 ParaRel;确保高跨评注者一致性。
- 在多种 PLMs 上评估一致性(Consistency)、知识(Accuracy)及联合度量(Consistent-Acc)。
- 引入基于模式特定输出分布的双向 KL 散度的一致性损失,结合 MLM 损失,并采用按关系分组的训练。
实验结果
研究问题
- RQ1PLM 的行为是否对事实查询中的类似同义改写的变化保持不变?
- RQ2ParaRel 在多样化关系和模式上的一致性捕捉能力有多强?
- RQ3是否可以通过专门的一致性损失在未见关系上提升跨模式的一致性?
主要发现
- PLMs 在整体上一致性较差,且按关系呈现较高的方差。
- 在该设置中,基于 BERT 的模型通常比 RoBERTa 和 ALBERT 在一致性和准确性方面表现更高。
- 一致性和准确性在模型之间呈正相关,但更多的训练数据并不总是带来更好的一致性(存在一个例外)。
- 存在语法鲁棒性,但知识提取对表面变化仍然敏感,指示表面形式效应超出语法。
- 应用所提出的一致性损失可以提高未见关系上的一致性(来自该研究的证据)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。