[论文解读] Tree-structured Attention with Hierarchical Accumulation
本文提出树形结构注意力与分层累积机制,一种将短语结构解析树整合进Transformer自注意力机制的方法,实现恒定的并行时间复杂度。通过分层嵌入、累积平均与加权聚合,该模型在机器翻译与文本分类任务中达到最先进性能,尤其在低资源设置下表现优异,并偏好短语级注意力。
Incorporating hierarchical structures like constituency trees has been shown to be effective for various natural language processing (NLP) tasks. However, it is evident that state-of-the-art (SOTA) sequence-based models like the Transformer struggle to encode such structures inherently. On the other hand, dedicated models like the Tree-LSTM, while explicitly modeling hierarchical structures, do not perform as efficiently as the Transformer. In this paper, we attempt to bridge this gap with "Hierarchical Accumulation" to encode parse tree structures into self-attention at constant time complexity. Our approach outperforms SOTA methods in four IWSLT translation tasks and the WMT'14 English-German translation task. It also yields improvements over Transformer and Tree-LSTM on three text classification tasks. We further demonstrate that using hierarchical priors can compensate for data shortage, and that our model prefers phrase-level attentions over token-level attentions.
研究动机与目标
- 为解决标准Transformer在编码句法树等层次结构上的局限性。
- 克服Tree-LSTM的顺序计算瓶颈,同时保留结构归纳偏置。
- 在Transformer框架内实现可扩展、可并行化的树编码,时间复杂度恒定。
- 评估层次先验在低资源NLP场景下的有效性。
- 分析注意力模式,判断模型是否偏好短语级或词元级注意力。
提出的方法
- 利用分层嵌入编码解析树中节点之间的兄弟关系与层次关系。
- 对所有后代节点的隐藏状态执行向上累积平均聚合,形成非终结符节点的值表示。
- 通过加权聚合机制将分支级表示整合为每个非终结符节点的最终值。
- 子树掩码限制注意力分数仅在键是查询的后代时激活,以确保结构一致性。
- 将该方法集成至Transformer架构中,保持注意力计算的恒定并行时间复杂度。
- 模型可同时处理树中所有节点,实现可扩展性与高效训练/推理。
实验结果
研究问题
- RQ1能否以恒定时间复杂度将层次树结构编码进自注意力机制?
- RQ2将句法树结构引入是否能提升机器翻译与文本分类任务的性能?
- RQ3在数据稀缺条件下,模型表现如何?层次先验能否弥补标注数据不足?
- RQ4模型是否表现出对短语级注意力而非词元级注意力的偏好?
- RQ5与Tree-LSTM等递归树模型相比,该模型的训练与推理效率如何?
主要发现
- 在四个IWSLT和一个WMT’14英德翻译任务中,Tree-Transformer在性能上超越Transformer与Tree-LSTM,小样本数据集上BLEU最高提升达3.3分。
- 在文本分类任务中,SST-5数据集上准确率达到47.4%,优于Transformer与Tree-LSTM,尤其在低资源设置下表现更优。
- 模型始终偏好短语级注意力,无论叶节点与非叶节点比例如何,59%至66%的注意力头均聚焦于非终结符节点而非叶节点。
- 在WMT’14英德翻译任务中,当训练数据少于100万句对时,模型BLEU提升达3.3分,展现出强大的数据效率。
- 训练与推理时间几乎不随序列长度变化,而Tree-LSTM则呈线性增长,证实本模型具备高度并行性与可扩展性。
- 消融实验表明,若移除分层嵌入或子树掩码,性能下降0.49至0.52 BLEU,证实两者均为关键组件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。