Skip to main content
QUICK REVIEW

[论文解读] Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction

Maha Elbayad, Laurent Besacier|arXiv (Cornell University)|Aug 11, 2018
Natural Language Processing Techniques参考文献 43被引用 53
一句话总结

提出一种2D CNN模型,联合编码源序列和目标序列,使用掩蔽卷积,在层间具有内建的注意力样行为,达到与参数更少的编码器-解码模型竞争的翻译质量。

ABSTRACT

Current state-of-the-art machine translation systems are based on encoder-decoder architectures, that first encode the input sequence, and then generate an output sequence based on the input encoding. Both are interfaced with an attention mechanism that recombines a fixed encoding of the source tokens based on the decoder state. We propose an alternative approach which instead relies on a single 2D convolutional neural network across both sequences. Each layer of our network re-codes source tokens on the basis of the output sequence produced so far. Attention-like properties are therefore pervasive throughout the network. Our model yields excellent results, outperforming state-of-the-art encoder-decoder systems, while being conceptually simpler and having fewer parameters.

研究动机与目标

  • 超越传统带注意力的MT编码器-解码架构的动机。
  • 开发一个自回归、全卷积的模型,在每一层都以部分目标序列为条件重新对源进行编码。
  • 证明带掩蔽的2D CNN在IWSLT’14德英和英德任务上可以达到具有竞争力的翻译质量。
  • 展示模型在较少参数下通过池化和可选的注意力机制隐式学习对齐,并具备并行化训练的特性。

提出的方法

  • 将源序列和目标序列的标记表示为一个联合的2D嵌入网格,形成形状为 (|t|, |s|, f0) 的张量 X,其中 f0 = ds + dt。
  • 使用 DenseNet 风格的2D卷积块,并采用掩蔽卷积以确保对目标序列的自回归因式分解。
  • 在最后一个块对源维执行最大池化,得到每个目标位置的表示,再通过线性层和softmax投影到输出词汇表。
  • 可选地在源维上加入自注意力机制,或与池化特征连接以提升性能。
  • 以带标签平滑的交叉熵和Adam进行训练;解码通过束搜索并应用长度和覆盖惩罚。
  • 在 IWSLT’14 De-En 和 En-De 任务上,实验性评估池化与注意力变体、嵌入维度、深度、增长率和感受野的影响。

实验结果

研究问题

  • RQ1一个在联合源-目标网格上运行、带掩蔽卷积的2D CNN,是否可作为具注意力的编码器-解码MT模型的有竞争力的替代方案?
  • RQ2池化策略和网络深度/宽度如何影响2D CNN MT模型的翻译质量与隐式对齐?
  • RQ3在普遍采用注意力机制的情况下,嵌入维度、网络深度和卷积核大小对De-En和En-De的BLEU分数有何影响?
  • RQ4与最先进的循环神经网络和Transformer模型相比,基于2D CNN的方法在BLEU、参数和计算成本方面的表现如何?

主要发现

  • 提出的普遍注意力2D CNN模型在IWSLT’14德英和英德翻译上实现了具有竞争力的BLEU分数,且参数量比若干基线模型更少。
  • 在源维上的最大池化在该设置中显著优于平均池化和自注意力(大约比平均池化多出2.3 BLEU)。
  • 更深的网络(约24层)和合理的嵌入/增长配置在BLEU方面带来显著提升,凸显了带掩蔽2D卷积的深层特征层次的好处。
  • 该模型能产生与注意力映射相类的隐式句子对齐,在定性分析中可见,并且与可选的自注意力组合时可获得边际提升。
  • 与基于RNN的带注意力模型和ConvS2S相比,普遍注意力方法具有竞争力,在某些配置下,其性能更接近Transformer模型,同时参数量更少。
  • 作者提供了开源的PyTorch实现,并在目标数据集上对比若干基线展示出有利的BLEU结果。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。