[论文解读] SG-Net: Syntax-Guided Machine Reading Comprehension
本文提出SG-Net,一种语法引导的神经网络,通过将句法依存结构整合到自注意力机制中,增强基于BERT的机器阅读理解。通过引入句法相关依存(SDOI)来约束注意力聚焦于语言学上有意义的词元跨度,SG-Net提升了表征学习能力,在SQuAD 2.0和RACE基准上实现了最先进性能,显著优于强基线模型。
For machine reading comprehension, the capacity of effectively modeling the linguistic knowledge from the detail-riddled and lengthy passages and getting ride of the noises is essential to improve its performance. Traditional attentive models attend to all words without explicit constraint, which results in inaccurate concentration on some dispensable words. In this work, we propose using syntax to guide the text modeling by incorporating explicit syntactic constraints into attention mechanism for better linguistically motivated word representations. In detail, for self-attention network (SAN) sponsored Transformer-based encoder, we introduce syntactic dependency of interest (SDOI) design into the SAN to form an SDOI-SAN with syntax-guided self-attention. Syntax-guided network (SG-Net) is then composed of this extra SDOI-SAN and the SAN from the original Transformer encoder through a dual contextual architecture for better linguistics inspired representation. To verify its effectiveness, the proposed SG-Net is applied to typical pre-trained language model BERT which is right based on a Transformer encoder. Extensive experiments on popular benchmarks including SQuAD 2.0 and RACE show that the proposed SG-Net design helps achieve substantial performance improvement over strong baselines.
研究动机与目标
- 为解决标准自注意力机制在Transformer模型中的局限性,即对所有词均匀关注而缺乏语言学优先级,导致在长或复杂篇章中对噪声敏感的问题。
- 通过将句法结构作为注意力的显式引导,聚焦于语言学上有意义的词元跨度,提升机器阅读理解性能。
- 设计一种双上下文架构,融合标准自注意力与语法引导的自注意力,以获得更丰富、更具语言学意义的表征。
- 通过实证验证,句法结构可增强预训练模型(如BERT)中的注意力机制,尤其在长或复杂问题上表现更优。
提出的方法
- 将句法相关依存(SDOI)定义为依存解析树中某个词的所有祖先节点及其自身,用于定义每个词的句法上下文。
- 设计一种语法引导的自注意力网络(SDOI-SAN),仅对SDOI相关词进行注意力计算,从而减少噪声并提升关注焦点。
- 构建SG-Net作为双上下文编码器,结合原始BERT自注意力层与SDOI-SAN层,通过加权融合保留通用表征与语法引导表征。
- 将SG-Net框架应用于BERT架构,在SQuAD 2.0和RACE基准上进行微调,以评估性能提升。
- 使用依存解析提取每个词的SDOI,特殊标记(如[CLS]、[PAD])被限制仅关注自身。
- 采用双上下文聚合层,通过可学习权重结合两种注意力机制的表征,优于拼接或双注意力方法。
实验结果
研究问题
- RQ1句法结构能否有效用于引导基于Transformer的模型中的注意力机制,以提升机器阅读理解性能?
- RQ2通过SDOI约束注意力至句法相关的词元跨度,是否能减少噪声并提升模型在长或复杂问题上的鲁棒性?
- RQ3标准自注意力与语法引导自注意力的融合机制,相较于单独使用任一机制,在性能与表征质量方面表现如何?
- RQ4双上下文架构在跨度抽取与多选阅读理解任务上的性能提升程度如何?
主要发现
- 与BERT基线相比,SG-Net在SQuAD 2.0开发集上实现了1.0个百分点的精确匹配(EM)绝对提升和1.1个百分点的F1分数提升,达到85.1的EM和87.9的F1。
- 模型对长问题表现出鲁棒性,性能与问题长度正相关,而基线模型在超过20个词的问题上性能显著下降。
- 消融实验证实,双上下文机制优于单一注意力变体及拼接或双注意力等替代融合方法。
- 注意力权重可视化显示,语法引导注意力准确聚焦于关键内容如“密苏里妥协”和“1850年”,与正确答案跨度一致。
- 在BERT后添加普通自注意力层无法带来性能提升,表明原始注意力机制已足够,而语法引导注意力提供了互补且非冗余的信息。
- 该方法在多样化的机器阅读理解任务中均有效,在跨度抽取(SQuAD 2.0)和多选(RACE)基准上均达到最先进或具有竞争力的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。