Skip to main content
QUICK REVIEW

[论文解读] Measuring and Improving Consistency in Pretrained Language Models

Yanai Elazar, Nora Kassner|arXiv (Cornell University)|Feb 1, 2021
Topic Modeling参考文献 77被引用 32
一句话总结

本文提出 ParaRel,用以通过同义改写的填空模式来衡量预训练语言模型(PLMs)的一致性,发现各模型之间存在广泛不一致,并提出基于 KL 散度的一致性损失以改善这一问题。

ABSTRACT

Consistency of a model -- that is, the invariance of its behavior under meaning-preserving alternations in its input -- is a highly desirable property in natural language processing. In this paper we study the question: Are Pretrained Language Models (PLMs) consistent with respect to factual knowledge? To this end, we create ParaRel, a high-quality resource of cloze-style query English paraphrases. It contains a total of 328 paraphrases for 38 relations. Using ParaRel, we show that the consistency of all PLMs we experiment with is poor -- though with high variance between relations. Our analysis of the representational spaces of PLMs suggests that they have a poor structure and are currently not suitable for representing knowledge robustly. Finally, we propose a method for improving model consistency and experimentally demonstrate its effectiveness.

研究动机与目标

  • 评估在意义保持的同义改写下,PLMs 是否能保持一致的事实预测。
  • 引入 ParaRel,一个基于高质量同义改写的基准,覆盖 38 个关系与 328 种模式。
  • 在 BERT、RoBERTa 和 ALBERT 上评估知识提取与一致性。
  • 提出并验证一种一致性损失,以提升模型在未见关系上的一致性。

提出的方法

  • 使用数据三元组 D_i 和关系 r_i 的同义改写模式 P_i,定义一个一致性框架,并将候选集限制为知识库对象。
  • 通过扩展基础模式,纳入 LPAQA 的改写、基于 SPIKE 的模式和专家策划,来构建 ParaRel;确保高跨评注者一致性。
  • 在多种 PLMs 上评估一致性(Consistency)、知识(Accuracy)及联合度量(Consistent-Acc)。
  • 引入基于模式特定输出分布的双向 KL 散度的一致性损失,结合 MLM 损失,并采用按关系分组的训练。

实验结果

研究问题

  • RQ1PLM 的行为是否对事实查询中的类似同义改写的变化保持不变?
  • RQ2ParaRel 在多样化关系和模式上的一致性捕捉能力有多强?
  • RQ3是否可以通过专门的一致性损失在未见关系上提升跨模式的一致性?

主要发现

  • PLMs 在整体上一致性较差,且按关系呈现较高的方差。
  • 在该设置中,基于 BERT 的模型通常比 RoBERTa 和 ALBERT 在一致性和准确性方面表现更高。
  • 一致性和准确性在模型之间呈正相关,但更多的训练数据并不总是带来更好的一致性(存在一个例外)。
  • 存在语法鲁棒性,但知识提取对表面变化仍然敏感,指示表面形式效应超出语法。
  • 应用所提出的一致性损失可以提高未见关系上的一致性(来自该研究的证据)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。