Skip to main content
QUICK REVIEW

[论文解读] Multi-Head Attention with Disagreement Regularization

Jian Li, Zhaopeng Tu|arXiv (Cornell University)|Oct 24, 2018
Topic Modeling参考文献 21被引用 22
一句话总结

本文提出了一种分歧正则化方法,通过显式地在多头注意力机制中鼓励不同注意力头之间的多样性,以提升Transformer模型的性能。通过在子空间、注意力位置和输出表示三个维度上应用三种类型的正则化,该方法在英德和中英翻译任务中均提升了翻译效果,使Transformer-Base模型在接近两倍训练速度下达到接近Transformer-Big的性能表现。

ABSTRACT

Multi-head attention is appealing for the ability to jointly attend to information from different representation subspaces at different positions. In this work, we introduce a disagreement regularization to explicitly encourage the diversity among multiple attention heads. Specifically, we propose three types of disagreement regularization, which respectively encourage the subspace, the attended positions, and the output representation associated with each attention head to be different from other heads. Experimental results on widely-used WMT14 English-German and WMT17 Chinese-English translation tasks demonstrate the effectiveness and universality of the proposed approach.

研究动机与目标

  • 解决当前Transformer模型中多头注意力机制缺乏对头之间显式多样性约束的问题。
  • 通过促使每个注意力头学习不同的特征,提升神经机器翻译的性能。
  • 探究显式正则化注意力头分歧是否能增强模型的泛化能力与训练效率。
  • 评估三种不同类型的分歧正则化在多头注意力不同组件上的有效性。
  • 证明通过分歧正则化,较小的模型(Transformer-Base)可在显著更短的训练时间内达到与更大模型(Transformer-Big)相当的性能。

提出的方法

  • 引入一个辅助训练目标,将似然损失与一个由超参数 λ=1.0 控制的分歧正则化项相结合。
  • 提出三种分歧正则化形式:在投影子空间(V^i, V^j)上、在注意力位置上(通过注意力矩阵的逐元素相乘实现)、在输出表示上(O^i, O^j)进行正则化。
  • 使用余弦距离作为分歧度量,以最大化不同头在子空间、注意力位置和输出向量上的表示差异。
  • 将正则化项独立或组合地应用于Transformer架构中的多头注意力机制。
  • 采用标准的Transformer编码器-解码器框架,结合多头自注意力机制,并在训练过程中集成分歧正则化,无需引入额外参数。
  • 为提升可解释性,使用 exp(D) 衡量分歧程度,其中更高的值(最高可达1.0)表示头之间具有更强的正交性(即更高的多样性)。

实验结果

研究问题

  • RQ1显式正则化注意力头分歧是否能提升神经机器翻译的性能?
  • RQ2在多头注意力机制中,子空间、注意力位置或输出表示这三个组件中,哪一个正则化对性能提升最有效?
  • RQ3通过分歧正则化,较小的Transformer模型(Base)是否能实现与更大模型(Big)相当的性能?
  • RQ4标准多头注意力头在多大程度上关注相同的位置?这种行为是否限制了其表示多样性?
  • RQ5分歧正则化如何影响不同编码器层中学习到的表示?

主要发现

  • 分歧正则化在WMT14英德和WMT17中英翻译任务上均一致地提升了翻译性能。
  • 经过分歧正则化的Transformer-Base模型在性能上可媲美Transformer-Big,同时训练速度接近两倍。
  • 输出分歧正则化实现了最高的分歧得分(exp(D) ≈ 0.997),表明不同头的输出向量近乎正交。
  • 基线多头注意力在注意力位置上的分歧极低(exp(D) = 0.007),表明大多数头关注相同的位置。
  • 基于位置的正则化未能显著提升子空间或输出上的分歧,解释了其与其他正则化项组合时效果有限的原因。
  • 结果表明,多头注意力主要通过学习到的表示来编码头之间的差异,而非通过注意力位置的多样性,这挑战了关于位置多样性是关键假设的既有认知。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。