QUICK REVIEW

[论文解读] Measuring and Improving Consistency in Pretrained Language Models

Yanai Elazar, Nora Kassner|arXiv (Cornell University)|Feb 1, 2021

Topic Modeling参考文献 77被引用 32

一句话总结

本文提出 ParaRel，用以通过同义改写的填空模式来衡量预训练语言模型（PLMs）的一致性，发现各模型之间存在广泛不一致，并提出基于 KL 散度的一致性损失以改善这一问题。

ABSTRACT

Consistency of a model -- that is, the invariance of its behavior under meaning-preserving alternations in its input -- is a highly desirable property in natural language processing. In this paper we study the question: Are Pretrained Language Models (PLMs) consistent with respect to factual knowledge? To this end, we create ParaRel, a high-quality resource of cloze-style query English paraphrases. It contains a total of 328 paraphrases for 38 relations. Using ParaRel, we show that the consistency of all PLMs we experiment with is poor -- though with high variance between relations. Our analysis of the representational spaces of PLMs suggests that they have a poor structure and are currently not suitable for representing knowledge robustly. Finally, we propose a method for improving model consistency and experimentally demonstrate its effectiveness.

研究动机与目标

评估在意义保持的同义改写下，PLMs 是否能保持一致的事实预测。
引入 ParaRel，一个基于高质量同义改写的基准，覆盖 38 个关系与 328 种模式。
在 BERT、RoBERTa 和 ALBERT 上评估知识提取与一致性。
提出并验证一种一致性损失，以提升模型在未见关系上的一致性。

提出的方法

使用数据三元组 D_i 和关系 r_i 的同义改写模式 P_i，定义一个一致性框架，并将候选集限制为知识库对象。
通过扩展基础模式，纳入 LPAQA 的改写、基于 SPIKE 的模式和专家策划，来构建 ParaRel；确保高跨评注者一致性。
在多种 PLMs 上评估一致性（Consistency）、知识（Accuracy）及联合度量（Consistent-Acc）。
引入基于模式特定输出分布的双向 KL 散度的一致性损失，结合 MLM 损失，并采用按关系分组的训练。

实验结果

研究问题

RQ1PLM 的行为是否对事实查询中的类似同义改写的变化保持不变？
RQ2ParaRel 在多样化关系和模式上的一致性捕捉能力有多强？
RQ3是否可以通过专门的一致性损失在未见关系上提升跨模式的一致性？

主要发现

PLMs 在整体上一致性较差，且按关系呈现较高的方差。
在该设置中，基于 BERT 的模型通常比 RoBERTa 和 ALBERT 在一致性和准确性方面表现更高。
一致性和准确性在模型之间呈正相关，但更多的训练数据并不总是带来更好的一致性（存在一个例外）。
存在语法鲁棒性，但知识提取对表面变化仍然敏感，指示表面形式效应超出语法。
应用所提出的一致性损失可以提高未见关系上的一致性（来自该研究的证据）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。