QUICK REVIEW

[论文解读] Pervasive Attention: 2D Convolutional Neural Networks for Sequence-to-Sequence Prediction

Maha Elbayad, Laurent Besacier|arXiv (Cornell University)|Aug 11, 2018

Natural Language Processing Techniques参考文献 43被引用 53

一句话总结

提出一种2D CNN模型，联合编码源序列和目标序列，使用掩蔽卷积，在层间具有内建的注意力样行为，达到与参数更少的编码器-解码模型竞争的翻译质量。

ABSTRACT

Current state-of-the-art machine translation systems are based on encoder-decoder architectures, that first encode the input sequence, and then generate an output sequence based on the input encoding. Both are interfaced with an attention mechanism that recombines a fixed encoding of the source tokens based on the decoder state. We propose an alternative approach which instead relies on a single 2D convolutional neural network across both sequences. Each layer of our network re-codes source tokens on the basis of the output sequence produced so far. Attention-like properties are therefore pervasive throughout the network. Our model yields excellent results, outperforming state-of-the-art encoder-decoder systems, while being conceptually simpler and having fewer parameters.

研究动机与目标

超越传统带注意力的MT编码器-解码架构的动机。
开发一个自回归、全卷积的模型，在每一层都以部分目标序列为条件重新对源进行编码。
证明带掩蔽的2D CNN在IWSLT’14德英和英德任务上可以达到具有竞争力的翻译质量。
展示模型在较少参数下通过池化和可选的注意力机制隐式学习对齐，并具备并行化训练的特性。

提出的方法

将源序列和目标序列的标记表示为一个联合的2D嵌入网格，形成形状为 (|t|, |s|, f0) 的张量 X，其中 f0 = ds + dt。
使用 DenseNet 风格的2D卷积块，并采用掩蔽卷积以确保对目标序列的自回归因式分解。
在最后一个块对源维执行最大池化，得到每个目标位置的表示，再通过线性层和softmax投影到输出词汇表。
可选地在源维上加入自注意力机制，或与池化特征连接以提升性能。
以带标签平滑的交叉熵和Adam进行训练；解码通过束搜索并应用长度和覆盖惩罚。
在 IWSLT’14 De-En 和 En-De 任务上，实验性评估池化与注意力变体、嵌入维度、深度、增长率和感受野的影响。

实验结果

研究问题

RQ1一个在联合源-目标网格上运行、带掩蔽卷积的2D CNN，是否可作为具注意力的编码器-解码MT模型的有竞争力的替代方案？
RQ2池化策略和网络深度/宽度如何影响2D CNN MT模型的翻译质量与隐式对齐？
RQ3在普遍采用注意力机制的情况下，嵌入维度、网络深度和卷积核大小对De-En和En-De的BLEU分数有何影响？
RQ4与最先进的循环神经网络和Transformer模型相比，基于2D CNN的方法在BLEU、参数和计算成本方面的表现如何？

主要发现

提出的普遍注意力2D CNN模型在IWSLT’14德英和英德翻译上实现了具有竞争力的BLEU分数，且参数量比若干基线模型更少。
在源维上的最大池化在该设置中显著优于平均池化和自注意力（大约比平均池化多出2.3 BLEU）。
更深的网络（约24层）和合理的嵌入/增长配置在BLEU方面带来显著提升，凸显了带掩蔽2D卷积的深层特征层次的好处。
该模型能产生与注意力映射相类的隐式句子对齐，在定性分析中可见，并且与可选的自注意力组合时可获得边际提升。
与基于RNN的带注意力模型和ConvS2S相比，普遍注意力方法具有竞争力，在某些配置下，其性能更接近Transformer模型，同时参数量更少。
作者提供了开源的PyTorch实现，并在目标数据集上对比若干基线展示出有利的BLEU结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。