[论文解读] ETC: Encoding Long and Structured Inputs in Transformers
本文提出扩展型变换器结构(ETC),一种新颖的Transformer架构,通过全局-局部注意力机制将注意力机制扩展至长序列,并利用相对位置编码对结构化输入进行编码,同时采用对比预测编码(CPC)预训练目标。ETC在四个长序列与结构化输入的NLP基准测试中取得最先进性能,包括HotpotQA、WikiHop、Natural Questions和OpenKP,且在单模型提交中优于现有模型。
Transformer models have advanced the state of the art in many Natural Language Processing (NLP) tasks. In this paper, we present a new Transformer architecture, Extended Transformer Construction (ETC), that addresses two key challenges of standard Transformer architectures, namely scaling input length and encoding structured inputs. To scale attention to longer inputs, we introduce a novel global-local attention mechanism between global tokens and regular input tokens. We also show that combining global-local attention with relative position encodings and a Contrastive Predictive Coding (CPC) pre-training objective allows ETC to encode structured inputs. We achieve state-of-the-art results on four natural language datasets requiring long and/or structured inputs.
研究动机与目标
- 为解决标准Transformer中自注意力机制的二次方计算复杂度问题,该问题将输入长度限制在约512个标记以内。
- 实现对层次化文档组织、文档级关系和标记结构等结构化输入的有效建模。
- 通过架构创新与预训练策略,提升长上下文与结构化输入NLP任务的性能。
- 支持从预训练的BERT/RoBERTa模型进行初始化,以提升微调效率与性能。
- 证明结构化输入建模与CPC预训练对推理能力与长上下文理解具有显著提升作用。
提出的方法
- 提出一种全局-局部注意力机制,将输入划分为全局标记与长序列标记,通过限制全局与长序列标记之间的注意力计算,将注意力复杂度从O(n²)降低至O(n)。
- 使用相对位置编码来建模全局与长序列标记之间的依赖关系,实现在不使用完整注意力机制的前提下对结构化输入进行建模。
- 采用对比预测编码(CPC)预训练目标,以学习全局输入表征,其作用类似于句子级别的掩码语言建模任务。
- 支持从预训练的RoBERTa模型迁移权重,提升训练效率与性能。
- 应用硬性g2l(全局到长序列)掩码,以强制在全局与长序列标记之间形成结构化注意力模式。
- 采用双序列输入格式:全局输入(如摘要标记)与长输入(完整序列),并在两者之间应用交叉注意力机制。
实验结果
研究问题
- RQ1经过修改的Transformer架构是否能在保持二次方复杂度的同时,将自注意力机制扩展至长序列?
- RQ2结合相对位置编码的全局-局部注意力机制,在建模分层与结构化输入依赖关系方面效果如何?
- RQ3CPC预训练目标是否能提升长上下文与结构化输入NLP任务的性能?
- RQ4从RoBERTa模型进行初始化在多大程度上提升了长序列与结构化输入任务的性能?
- RQ5如硬性g2l掩码与扁平化结构消融实验等架构选择,对结构化数据集性能的影响如何?
主要发现
- ETC在所有四个评估数据集中均取得最先进性能:HotpotQA(支持F1: 0.869)、WikiHop(准确率: 75.9)、Natural Questions(长答案)和OpenKP(F1: 0.399),且均为单模型提交结果。
- ETC在HotpotQA与WikiHop上的表现优于Longformer-large,即使未使用集成方法,HotpotQA的F1达到0.869,WikiHop准确率达到75.9。
- 若移除CPC预训练任务,HotpotQA的支持F1将从0.751降至0.722,证明其对结构化推理的重要性。
- 硬性g2l掩码在HotpotQA上提升了性能,但在WikiHop上略有损害,表明不同数据集对结构化归纳偏置的敏感性存在差异。
- 使用RoBERTa权重进行初始化显著提升了性能,尤其在OpenKP与WikiHop上,随着模型增大与预训练增强,性能进一步提升。
- 在OpenKP中引入视觉特征可获得最大性能提升,且对关键词候选结果取最大logit值可进一步优化结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。