Skip to main content
QUICK REVIEW

[论文解读] Pseudolikelihood Reranking with Masked Language Models.

Julián Salazar, Davis Liang|arXiv (Cornell University)|Oct 31, 2019
Topic Modeling参考文献 13被引用 7
一句话总结

本文提出使用预训练掩码语言模型(如 BERT 和 RoBERTa)进行 log-pseudolikelihood (LPL) 重排序,以提升自动语音识别(ASR)和神经机器翻译(NMT)性能。LPL 分数优于自回归模型(如 GPT-2),在 LibriSpeech 上将 WER 最多降低 30%,在低资源 NMT 任务中 BLEU 最多提升 1.7 分,且通过领域自适应和单个多语言 XLM 实现了跨语言重排序。

ABSTRACT

We rerank with scores from pretrained masked language models like BERT to improve ASR and NMT performance. These log-pseudolikelihood scores (LPLs) can outperform large, autoregressive language models (GPT-2) in out-of-the-box scoring. RoBERTa reduces WER by up to 30% relative on an end-to-end LibriSpeech system and adds up to +1.7 BLEU on state-of-the-art baselines for TED Talks low-resource pairs, with further gains from domain adaptation. In the multilingual setting, a single XLM can be used to rerank translation outputs in multiple languages. The numerical and qualitative properties of LPL scores suggest that LPLs capture sentence fluency better than autoregressive scores. Finally, we finetune BERT to estimate sentence LPLs without masking, enabling scoring in a single, non-recurrent inference pass.

研究动机与目标

  • 使用预训练掩码语言模型对重排序进行 ASR 和 NMT 性能改进。
  • 通过引入非自回归替代方法,解决自回归语言模型在流畅性评分中的局限性。
  • 通过微调 BERT 实现非循环、单次通过推理,实现句子级流畅性评分的高效处理。
  • 探索单个 XLM 模型在多种语言间重排序中的多语言适用性。
  • 调查 LPL 分数是否比自回归分数更能捕捉句子流畅性。

提出的方法

  • 通过掩码标记并评分原始序列的可能性,使用掩码语言模型(如 BERT、RoBERTa)计算 log-pseudolikelihood (LPL) 分数。
  • 在 ASR 和 NMT 解码流程中,使用 LPL 分数对假设进行重排序,无需自回归生成。
  • 在句子级 LPL 估计上微调 BERT,以实现非循环、单次通过推理。
  • 应用领域自适应以提升低资源 NMT 任务中 LPL 的性能。
  • 利用多语言 XLM 对多种语言的翻译输出进行重排序,仅使用一个模型。
  • 从流畅性建模和性能角度,将 LPL 分数与自回归对数似然分数进行比较。

实验结果

研究问题

  • RQ1掩码语言模型的 LPL 分数是否能在 ASR 和 NMT 重排序中优于自回归语言模型(如 GPT-2)?
  • RQ2LPL 分数在端到端 ASR 中对 WER 的降低程度以及在低资源 NMT 中对 BLEU 的提升程度如何?
  • RQ3领域自适应在提升低资源翻译任务中基于 LPL 的重排序性能方面有多有效?
  • RQ4单个多语言 XLM 模型是否能有效对多种语言的输出进行重排序?
  • RQ5LPL 分数是否比自回归分数更能捕捉句子流畅性?

主要发现

  • RoBERTa 的 LPL 分数在端到端 LibriSpeech ASR 系统中将词错误率(WER)相对降低最多达 30%。
  • LPL 重排序在最先进的低资源 TED Talks 翻译对 NMT 系统中将 BLEU 分数提升最多达 1.7 分。
  • 领域自适应显著提升了低资源 NMT 任务中 LPL 的性能。
  • 单个多语言 XLM 模型能够有效对多种语言的翻译输出进行重排序。
  • 与自回归分数相比,LPL 分数在捕捉句子流畅性方面表现出更优的数值和定性特性。
  • 微调后的 BERT 实现了单次通过、非循环推理,提升了 LPL 估计的效率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。