Skip to main content
QUICK REVIEW

[论文解读] Mixture Models for Diverse Machine Translation: Tricks of the Trade

Tianxiao Shen, Myle Ott|arXiv (Cornell University)|Feb 20, 2019
Topic Modeling被引用 61
一句话总结

本文提供对条件混合模型(专家混合)在多样化神经机器翻译中的全面实证研究,指出关键设计选择和训练技巧,相对于变分NMT与多样解码基线,在质量-多样性权衡方面具有良好表现。

ABSTRACT

Mixture models trained via EM are among the simplest, most widely used and well understood latent variable models in the machine learning literature. Surprisingly, these models have been hardly explored in text generation applications such as machine translation. In principle, they provide a latent variable to control generation and produce a diverse set of hypotheses. In practice, however, mixture models are prone to degeneracies---often only one component gets trained or the latent variable is simply ignored. We find that disabling dropout noise in responsibility computation is critical to successful training. In addition, the design choices of parameterization, prior distribution, hard versus soft EM and online versus offline assignment can dramatically affect model performance. We develop an evaluation protocol to assess both quality and diversity of generations against multiple references, and provide an extensive empirical study of several mixture model variants. Our analysis shows that certain types of mixture models are more robust and offer the best trade-off between translation quality and diversity compared to variational models and diverse decoding approaches.\footnote{Code to reproduce the results in this paper is available at \url{https://github.com/pytorch/fairseq}}

研究动机与目标

  • 动机:需要以多样化的假设来建模多模态翻译输出。
  • 评估用于MT的各种混合模型设计选项(硬EM/软EM、先验、参数共享)。
  • 开发并应用一个评估协议,使用多参考同时衡量翻译质量与多样性。
  • 识别实用的训练技巧,降低退化并促进专家之间有意义的专门化。

提出的方法

  • 使用条件混合模型(专家混合,Mixture of Experts),其中潜在变量 z 在 K 个专家中选择以在给定 x 的情况下生成 y。
  • 研究硬 EM 与软 EM、学习的先验与均匀先验,以及在线 vs 离线责任更新。
  • 比较专家的独立参数化与共享参数化,并分析正则化 dropout 对责任计算的影响。
  • 在大规模 MT 基准(WMT En-De、En-Fr、Zh-En)上使用 Fairseq 的 Transformer 架构进行训练与评估。
  • 提出一个简单的解码策略:通过枚举 z 并对每个专家进行贪心解码来生成 K 个假设。

实验结果

研究问题

  • RQ1混合专家 MT 模型是否能够在同时实现多样性和高质量翻译?
  • RQ2设计选项(EM 类型、先验、参数共享、更新策略、正则化)如何影响训练退化与性能?
  • RQ3哪些配置相对于如变分NMT和多样解码等基线在质量-多样性权衡上表现最佳?
  • RQ4为使用混合组件训练鲁棒、具多样性的 MT 模型提出哪些实用指南?

主要发现

  • 某些混合模型变体在质量与多样性之间取得稳健平衡,在多参考设置下接近人类水平。
  • 在 E 步中禁用 dropout 对防止退化至关重要,避免只训练一个专家或忽略潜在变量。
  • 采用具有均匀先验和在线责任更新的硬 EM(hMup,online-shared)在实现强多样性同时具有良好质量-多样性权衡。
  • 独立参数化配合离线责任更新可能带来更高的多样性但可能降低质量;共享参数与在线更新则实现稳健的平衡。
  • 在三大大型 MT 基准上,Mixture of Experts 模型(hMup)在总体质量-多样性权衡方面优于变分 NMT 与多样解码基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。