Skip to main content
QUICK REVIEW

[论文解读] Improving Sequence-to-Sequence Learning via Optimal Transport

Li‐Qun Chen, Yizhe Zhang|arXiv (Cornell University)|Jan 18, 2019
Topic Modeling参考文献 69被引用 23
一句话总结

本文提出了一种新颖的序列到序列学习框架,通过基于最优传输(OT)的序列级监督来改进训练,替代或增强标准的最大似然估计(MLE)。通过最小化生成序列与参考序列之间的Wasserstein距离,该方法提升了语义对齐性并减少了暴露偏差,从而在机器翻译、抽象摘要和图像字幕生成任务中实现了持续的性能提升。

ABSTRACT

Sequence-to-sequence models are commonly trained via maximum likelihood estimation (MLE). However, standard MLE training considers a word-level objective, predicting the next word given the previous ground-truth partial sentence. This procedure focuses on modeling local syntactic patterns, and may fail to capture long-range semantic structure. We present a novel solution to alleviate these issues. Our approach imposes global sequence-level guidance via new supervision based on optimal transport, enabling the overall characterization and preservation of semantic features. We further show that this method can be understood as a Wasserstein gradient flow trying to match our model to the ground truth sequence distribution. Extensive experiments are conducted to validate the utility of the proposed approach, showing consistent improvements over a wide variety of NLP tasks, including machine translation, abstractive text summarization, and image captioning.

研究动机与目标

  • 解决词级MLE训练与序列级评估指标(如BLEU和ROUGE)之间的不匹配问题。
  • 通过引入全局序列级监督,克服自回归生成中的暴露偏差。
  • 开发一种稳健且可微分的序列级损失函数,避免强化学习或对抗训练带来的不稳定性。
  • 通过OT方法将生成序列与输入序列和参考序列对齐,提升生成序列的语义保持力和结构连贯性。
  • 证明基于OT的正则化在多种序列到序列任务(包括翻译、摘要和图像字幕)中的泛化能力。

提出的方法

  • 提出一种基于最优传输(OT)的序列级损失,计算生成序列与参考序列之间的Wasserstein距离,以促进语义相似性。
  • 将训练目标表述为正则化的MLE损失,结合交叉熵与基于OT的正则化项,引导模型实现更好的语义对齐。
  • 通过同时计算生成序列与输入序列之间的OT距离,扩展监督信号,确保模型在生成过程中充分利用源信息。
  • 将训练过程解释为近似的Wasserstein梯度流,以最小化模型输出分布与真实数据分布之间的距离。
  • 通过熵正则化实现OT距离的可微分近似,以支持神经网络中的端到端反向传播。
  • 将该方法应用于多种架构(如基于GRU的Seq2Seq、类似Transformer的模型)和任务,无需架构重构,展现出广泛的适用性。

实验结果

研究问题

  • RQ1最优传输能否为序列到序列模型提供比词级MLE更有效的序列级监督?
  • RQ2基于OT的正则化是否能减少自回归生成中的暴露偏差并提升泛化能力?
  • RQ3与强化学习和对抗训练相比,该方法在训练稳定性和性能方面表现如何?
  • RQ4该OT损失是否能提升翻译、摘要和图像字幕等多样化NLP任务中的语义保真度和结构连贯性?
  • RQ5该基于OT的方法对超参数选择是否具有鲁棒性,特别是组合损失中的权重系数γ?

主要发现

  • 在所有评估任务中,OT增强模型均显著优于MLE基线,WMT'14英德翻译数据集上BLEU分数最高提升2.4分。
  • 在Gigaword摘要数据集上,模型ROUGE-L得分为34.0,比基线Seq2Seq高出1.6分,且超越了使用更复杂架构的SOTA结果(36.92)。
  • 在DUC-2004摘要数据集上,ROUGE-L从24.8提升至26.0,表明在更小、更具挑战性的数据集上也表现出色。
  • 在COCO图像字幕任务中,BLEU-4从81.5提升至83.2,CIDEr从120.1提升至124.3,表明在多个指标上均取得一致提升,且未出现对单一指标的过拟合。
  • 该方法对超参数γ具有鲁棒性,测试BLEU分数在γ ∈ (0,1]范围内始终高于基线,表明性能稳定。
  • 定性分析显示,与原始MLE模型相比,该模型能更好地保留关键语义术语,减少误解,尤其在翻译和摘要任务中表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。