QUICK REVIEW
[论文解读] BERT has a Mouth, and It Must Speak: BERT as a Markov Random Field Language Model
Alex Wang, Kyunghyun Cho|arXiv (Cornell University)|Feb 11, 2019
Topic Modeling参考文献 23被引用 141
一句话总结
该论文将 BERT 重新表述为一个马尔可夫随机场语言模型,并推导出一个吉布斯采样过程来生成句子,显示 BERT 能生成比从左到右模型更流畅但更具多样性的文本,同时存在一些质量权衡。
ABSTRACT
We show that BERT (Devlin et al., 2018) is a Markov random field language model. This formulation gives way to a natural procedure to sample sentences from BERT. We generate from BERT and find that it can produce high-quality, fluent generations. Compared to the generations of a traditional left-to-right language model, BERT generates sentences that are more diverse but of slightly worse quality.
研究动机与目标
- 激发以超越其标准双向预训练的方式对 BERT 进行采样与生成。
- 将 BERT 正式化为带伪对数似然训练的 MRF-LM。
- 提出 Gibbs 采样及其他 MCMC 技术以从 BERT 生成句子。
- 评估基于 BERT 的生成在多样性与质量之间的权衡。
- 提供实用的指导和代码以支持基于 BERT 的生成实验。
提出的方法
- 将 X 定义为一个令牌变量的全连接图,完整图团势分解为每个令牌对数势的乘积。
- 使用在令牌被掩码时依赖所有其他令牌的对数势,使得可条件地得到 p(x_t|X_{ackslash t}) 并进行 softmax 归一化。
- 采用伪对数似然(PLL)学习,以避免难以处理的联合归一化,最大化给定其余令牌时每个令牌的期望对数概率。
- 通过对要掩码和预测的令牌位置进行采样,实现随机 PLL 估计,与去噪自编码器相关。
- 开发基于 Gibbs 采样的生成:迭代地随机掩码一个位置,从 p(x_t|X_{ackslash t}) 采样一个令牌,并更新序列。
- 描述顺序与非顺序(从左到右)的采样方案以及实际选择(如 top-k=100 提案)。
- 使用自动指标(如 corpus-BLEU、困惑度)和人类流畅度判断,将 BERT 基生成与 GPT 进行比较。
实验结果
研究问题
- RQ1BERT 是否可以被解释为具有可处理采样过程的马尔可夫随机场语言模型?
- RQ2基于 BERT 的生成在质量和多样性方面与从左到右的模型相比如何?
- RQ3对于像 BERT 这样的双向模型,哪些采样策略(Gibbs、顺序)在文本生成方面有效?
- RQ4基于 PLL 的训练如何使 BERT 作为 MRF-LM 的学习和采样成为可能或受到约束?
主要发现
- BERT 可以被视为一个 MRF-LM,使得在不进行额外训练的情况下就能实现 Gibbs 采样生成过程。
- 从 BERT 采样得到的句子通常流畅、结构良好且比 GPT 生成更具多样性。
- 与 GPT 相比,BERT 生成更具多样性,但在自动指标和人类流畅度判断上有时略低于质量。
- 作者观察到困惑度和 n-gram 多样性在域相关上存在差异,表明领域转变会影响对 BERT 生成文本的外部语言模型评估。
- BERT 基于的生成与参考语料的 n-gram 重叠较低,指示相对于 GPT 和数据分布具有更高的多样性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。