[论文解读] Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction
提出一种2D CNN模型,联合编码源序列和目标序列,使用掩蔽卷积,在层间具有内建的注意力样行为,达到与参数更少的编码器-解码模型竞争的翻译质量。
Current state-of-the-art machine translation systems are based on encoder-decoder architectures, that first encode the input sequence, and then generate an output sequence based on the input encoding. Both are interfaced with an attention mechanism that recombines a fixed encoding of the source tokens based on the decoder state. We propose an alternative approach which instead relies on a single 2D convolutional neural network across both sequences. Each layer of our network re-codes source tokens on the basis of the output sequence produced so far. Attention-like properties are therefore pervasive throughout the network. Our model yields excellent results, outperforming state-of-the-art encoder-decoder systems, while being conceptually simpler and having fewer parameters.
研究动机与目标
- 超越传统带注意力的MT编码器-解码架构的动机。
- 开发一个自回归、全卷积的模型,在每一层都以部分目标序列为条件重新对源进行编码。
- 证明带掩蔽的2D CNN在IWSLT’14德英和英德任务上可以达到具有竞争力的翻译质量。
- 展示模型在较少参数下通过池化和可选的注意力机制隐式学习对齐,并具备并行化训练的特性。
提出的方法
- 将源序列和目标序列的标记表示为一个联合的2D嵌入网格,形成形状为 (|t|, |s|, f0) 的张量 X,其中 f0 = ds + dt。
- 使用 DenseNet 风格的2D卷积块,并采用掩蔽卷积以确保对目标序列的自回归因式分解。
- 在最后一个块对源维执行最大池化,得到每个目标位置的表示,再通过线性层和softmax投影到输出词汇表。
- 可选地在源维上加入自注意力机制,或与池化特征连接以提升性能。
- 以带标签平滑的交叉熵和Adam进行训练;解码通过束搜索并应用长度和覆盖惩罚。
- 在 IWSLT’14 De-En 和 En-De 任务上,实验性评估池化与注意力变体、嵌入维度、深度、增长率和感受野的影响。
实验结果
研究问题
- RQ1一个在联合源-目标网格上运行、带掩蔽卷积的2D CNN,是否可作为具注意力的编码器-解码MT模型的有竞争力的替代方案?
- RQ2池化策略和网络深度/宽度如何影响2D CNN MT模型的翻译质量与隐式对齐?
- RQ3在普遍采用注意力机制的情况下,嵌入维度、网络深度和卷积核大小对De-En和En-De的BLEU分数有何影响?
- RQ4与最先进的循环神经网络和Transformer模型相比,基于2D CNN的方法在BLEU、参数和计算成本方面的表现如何?
主要发现
- 提出的普遍注意力2D CNN模型在IWSLT’14德英和英德翻译上实现了具有竞争力的BLEU分数,且参数量比若干基线模型更少。
- 在源维上的最大池化在该设置中显著优于平均池化和自注意力(大约比平均池化多出2.3 BLEU)。
- 更深的网络(约24层)和合理的嵌入/增长配置在BLEU方面带来显著提升,凸显了带掩蔽2D卷积的深层特征层次的好处。
- 该模型能产生与注意力映射相类的隐式句子对齐,在定性分析中可见,并且与可选的自注意力组合时可获得边际提升。
- 与基于RNN的带注意力模型和ConvS2S相比,普遍注意力方法具有竞争力,在某些配置下,其性能更接近Transformer模型,同时参数量更少。
- 作者提供了开源的PyTorch实现,并在目标数据集上对比若干基线展示出有利的BLEU结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。