Skip to main content
QUICK REVIEW

[论文解读] BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model

Alex Wang, Kyunghyun Cho|arXiv (Cornell University)|Feb 11, 2019
Topic Modeling参考文献 23被引用 141
一句话总结

该论文将 BERT 重新表述为一个马尔可夫随机场语言模型,并推导出一个吉布斯采样过程来生成句子,显示 BERT 能生成比从左到右模型更流畅但更具多样性的文本,同时存在一些质量权衡。

ABSTRACT

We show that BERT (Devlin et al., 2018) is a Markov random field language model. This formulation gives way to a natural procedure to sample sentences from BERT. We generate from BERT and find that it can produce high-quality, fluent generations. Compared to the generations of a traditional left-to-right language model, BERT generates sentences that are more diverse but of slightly worse quality.

研究动机与目标

  • 激发以超越其标准双向预训练的方式对 BERT 进行采样与生成。
  • 将 BERT 正式化为带伪对数似然训练的 MRF-LM。
  • 提出 Gibbs 采样及其他 MCMC 技术以从 BERT 生成句子。
  • 评估基于 BERT 的生成在多样性与质量之间的权衡。
  • 提供实用的指导和代码以支持基于 BERT 的生成实验。

提出的方法

  • 将 X 定义为一个令牌变量的全连接图,完整图团势分解为每个令牌对数势的乘积。
  • 使用在令牌被掩码时依赖所有其他令牌的对数势,使得可条件地得到 p(x_t|X_{ackslash t}) 并进行 softmax 归一化。
  • 采用伪对数似然(PLL)学习,以避免难以处理的联合归一化,最大化给定其余令牌时每个令牌的期望对数概率。
  • 通过对要掩码和预测的令牌位置进行采样,实现随机 PLL 估计,与去噪自编码器相关。
  • 开发基于 Gibbs 采样的生成:迭代地随机掩码一个位置,从 p(x_t|X_{ackslash t}) 采样一个令牌,并更新序列。
  • 描述顺序与非顺序(从左到右)的采样方案以及实际选择(如 top-k=100 提案)。
  • 使用自动指标(如 corpus-BLEU、困惑度)和人类流畅度判断,将 BERT 基生成与 GPT 进行比较。

实验结果

研究问题

  • RQ1BERT 是否可以被解释为具有可处理采样过程的马尔可夫随机场语言模型?
  • RQ2基于 BERT 的生成在质量和多样性方面与从左到右的模型相比如何?
  • RQ3对于像 BERT 这样的双向模型,哪些采样策略(Gibbs、顺序)在文本生成方面有效?
  • RQ4基于 PLL 的训练如何使 BERT 作为 MRF-LM 的学习和采样成为可能或受到约束?

主要发现

  • BERT 可以被视为一个 MRF-LM,使得在不进行额外训练的情况下就能实现 Gibbs 采样生成过程。
  • 从 BERT 采样得到的句子通常流畅、结构良好且比 GPT 生成更具多样性。
  • 与 GPT 相比,BERT 生成更具多样性,但在自动指标和人类流畅度判断上有时略低于质量。
  • 作者观察到困惑度和 n-gram 多样性在域相关上存在差异,表明领域转变会影响对 BERT 生成文本的外部语言模型评估。
  • BERT 基于的生成与参考语料的 n-gram 重叠较低,指示相对于 GPT 和数据分布具有更高的多样性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。