QUICK REVIEW

[论文解读] Syntax-Infused Transformer and BERT models for Machine Translation and Natural Language Understanding

Dhanasekar Sundararaman, Vivek Subramanian|arXiv (Cornell University)|Nov 10, 2019

Natural Language Processing Techniques参考文献 18被引用 37

一句话总结

本论文在 Transformer 和 BERT 中加入显式句法特征（词性 POS、大小写、子词位置），以提升英德翻译和 GLUE 任务的性能，展示了在数据有限时的 BLEU 提升以及对若干 GLUE 任务的改进。

ABSTRACT

Attention-based models have shown significant improvement over traditional algorithms in several NLP tasks. The Transformer, for instance, is an illustrative example that generates abstract representations of tokens inputted to an encoder based on their relationships to all tokens in a sequence. Recent studies have shown that although such models are capable of learning syntactic features purely by seeing examples, explicitly feeding this information to deep learning models can significantly enhance their performance. Leveraging syntactic information like part of speech (POS) may be particularly beneficial in limited training data settings for complex models such as the Transformer. We show that the syntax-infused Transformer with multiple features achieves an improvement of 0.7 BLEU when trained on the full WMT 14 English to German translation dataset and a maximum improvement of 1.99 BLEU points when trained on a fraction of the dataset. In addition, we find that the incorporation of syntax into BERT fine-tuning outperforms baseline on a number of downstream tasks from the GLUE benchmark.

研究动机与目标

推动将显式句法信息整合到神经 NLP 模型中，以提升翻译和理解能力。
通过用句法特征增强嵌入来开发带有句法信息的 Transformer。
在微调阶段通过加入基于词性的句法嵌入，将该方法扩展到 BERT。
评估句法注入对 EN-DE 翻译和 GLUE 基准测试任务的影响。
分析注意力模式，以解释句法信息如何影响模型行为。

提出的方法

通过将可训练的句法嵌入（POS、大小写、子词位置）与子词嵌入拼接或相加，修改 Transformer 编码器输入。
在与基线相当的设置下训练带句法信息的 Transformer（六层编码器/解码器，8 注意力头；使用 512 维嵌入，20 维特征嵌入）。
将基于 POS 的句法特征、大小写及子词位置标签应用于创建输入 Transformer 的合并标记表示。
通过将 POS 嵌入添加到标记嵌入来改造 BERT（通过相加或拼接的固定方法以保持维度一致性）；在 GLUE Bench 任务上评估。
在 EN-DE 翻译（WMT ’14）和 GLUE 基准上训练并评估模型，并与基线进行比较。
提供定性注意力可视化，说明句法如何影响翻译中的跨标记注意力。

实验结果

研究问题

RQ1将显式句法信息注入 Transformer 的嵌入是否在翻译质量（BLEU）上优于基线 Transformer，尤其在训练数据有限时？
RQ2词性、大小写和子词位置特征如何影响注意力模式和翻译结果？
RQ3在 BERT 微调中整合 POS 是否相对于 BERT BASE 能提升 GLUE 任务？
RQ4哪些句法特征（POS、大小写、子词位置）对翻译和理解任务的性能提升贡献最大？
RQ5在不同数据规模和任务类型（翻译与 GLUE 任务）下，该句法信息注入方法是否有益？

主要发现

带句法信息的 Transformer 在各数据规模下相较基线实现了 BLEU 的提升，当在 10% 的 EN-DE 数据上训练时，最大提升为 1.99 BLEU 点。
总体而言，带句法信息的 Transformer 随着数据规模增大，其 BLEU 值普遍高于基线 Transformer，且在数据较少的分数段收益最大。
注意力可视化表明，带句法信息的模型在子词之间更广泛地分布注意力，将远距离但相关的标记连接起来以改善翻译。
将 POS 嵌入加入 BERT BASE（BERT BASE + POS）在 8 项 GLUE 任务中有 4 项超过 BERT BASE，在 CoLA 和相关语义任务上取得显著提升。
当总特征嵌入维度为 20（相加或拼接）时，POS、大小写和子词位置特征的组合为翻译带来最佳提升。
与基线相比，BERT BASE + POS 在若干 GLUE 任务上表现出具竞争力的提升，表明句法线索有助于下游理解任务。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。