[论文解读] Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned
本论文分析 Transformer NMT 的编码器头部重要性,表明少数头部至关重要,许多头通过可微分的 L0 类门控方法在几乎不失 BLEU 的情况下就可以被裁剪。它还通过位置、句法和罕见词的角色来刻画头部。
Multi-head self-attention is a key component of the Transformer, a state-of-the-art architecture for neural machine translation. In this work we evaluate the contribution made by individual attention heads in the encoder to the overall performance of the model and analyze the roles played by them. We find that the most important and confident heads play consistent and often linguistically-interpretable roles. When pruning heads using a method based on stochastic gates and a differentiable relaxation of the L0 penalty, we observe that specialized heads are last to be pruned. Our novel pruning method removes the vast majority of heads without seriously affecting performance. For example, on the English-Russian WMT dataset, pruning 38 out of 48 encoder heads results in a drop of only 0.15 BLEU.
研究动机与目标
- 确定翻译质量在多大程度上取决于单个编码器头。
- 识别重要头部的持续、可解释的角色(位置、句法、罕见词)。
- 在编码器自注意、解码器自注意,以及解码器-编码器注意之间,评估哪些头部最具影响力。
- 展示一种剪枝方法,在保留性能的同时移除冗余头部,并避免从头开始重新训练。
提出的方法
- 使用分层相关传播(LRP)计算头部重要性,以对头部根据对第一条对数输出的贡献排序。
- 用三种功能来刻画头部:位置(对相邻标记进行注意)、句法(对依存关系中的标记进行注意)、罕见词(对最少出现的标记进行注意)。
- 通过平均最大注意权重(不包括 EOS)来评价头部置信度。
- 引入柔性 L0 正则化的近似,使用 Hard Concrete 闸门在完整模型收敛后继续训练时对头部进行剪枝。
- 将闸门应用于编码器自注意(后续扩展到所有注意类型),并微调以评估对 BLEU 的影响。
- 比较从训练/剪枝模型剪枝与从头开始用较少头部进行训练的效果。
实验结果
研究问题
- RQ1单个编码器头对翻译质量的影响有多大?
- RQ2编码器头是否在不同语言对和领域中展现出一致、可解释的角色?
- RQ3哪种注意类型(编码器自注意、解码器自注意、解码器-编码器注意)对头部数量最为敏感?
- RQ4在不从零重新训练的情况下,能否以最小 BLEU 损失裁剪大部分头部?
- RQ5被剪裁的头部的角色如何与位置/句法/罕见词功能相关?
主要发现
- 少量头部对翻译质量极其重要。
- 重要头部具有专业化、可解释的功能(位置、句法关系、罕见词聚焦)。
- 位置头部主要关注相邻标记,并与高置信度和 LRP 相关性的重要头部一致。
- 句法头部关注特定依存关系(如 nsubj、dobj、amod、advmod),并在与句法结构相关的准确性方面高于基线。
- 第一层中的单一“罕见词”头部往往聚焦于最不频繁的标记,显示出独特的专业角色。
- 使用可微 Head gates 的新颖剪枝方法(Hard Concrete)可以在几乎不损失 BLEU 的情况下剪除大多数头部;以 EN-RU OpenSubtitles 为例,从 48 减到 4 个编码器头部仅损失 0.25 BLEU。
- 在 WMT EN-RU 上,10 个编码器头部足以使 BLEU 与全模型相差不超过 0.15;许多头部可以在不产生重大影响的情况下被移除。
- 剪枝所有注意类型表明解码器-编码器注意最关键;编码器自注意可以更积极地剪枝,特别是在 OpenSubtitles 数据中。
- 从收敛的全模型继续训练得到的剪枝模型保留关键头部并能在各层保持功能,尽管以相同稀疏结构从头重新训练的效果不及基于剪枝的稀疏化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。