[论文解读] Multi-Level Structured Self-Attentions for Distantly Supervised Relation Extraction
本文提出一种多层级结构化自注意力机制(MLSSA),将传统的1D注意力机制扩展至2D矩阵,用于远程监督关系抽取。通过将词级和句级注意力建模为结构化的2D矩阵,该方法提升了上下文表征能力和有效实例选择,显著提升了NYT和DBpedia数据集上的F1与P@N得分,达到当前最优性能。
Attention mechanisms are often used in deep neural networks for distantly supervised relation extraction (DS-RE) to distinguish valid from noisy instances. However, traditional 1-D vector attention models are insufficient for the learning of different contexts in the selection of valid instances to predict the relationship for an entity pair. To alleviate this issue, we propose a novel multi-level structured (2-D matrix) self-attention mechanism for DS-RE in a multi-instance learning (MIL) framework using bidirectional recurrent neural networks. In the proposed method, a structured word-level self-attention mechanism learns a 2-D matrix where each row vector represents a weight distribution for different aspects of an instance regarding two entities. Targeting the MIL issue, the structured sentence-level attention learns a 2-D matrix where each row vector represents a weight distribution on selection of different valid in-stances. Experiments conducted on two publicly available DS-RE datasets show that the proposed framework with a multi-level structured self-attention mechanism significantly outperform state-of-the-art baselines in terms of PR curves, P@N and F1 measures.
研究动机与目标
- 解决1D注意力机制在捕捉句子中多样化语义方面以及远程监督关系抽取中多个有效实例方面的局限性。
- 通过结构化词级注意力建模多种语义方面,提升实体对的上下文表征学习能力。
- 通过在多实例学习中学习多样化、结构化的注意力分布,提升有效实例的选择能力。
- 通过利用结构化注意力抑制噪声实例并突出信息量高的实例,缓解远程监督中的误标签问题。
- 证明2D结构化注意力优于标准1D注意力及现有SOTA模型,在公开的DS-RE基准上表现更优。
提出的方法
- 提出一种基于2D矩阵的词级自注意力机制,其中每一行学习对词语的独立注意力分布,为给定实体对捕捉句子的多种语义方面。
- 引入一种基于2D矩阵的句级自注意力机制,通过在多个实例上学习多个注意力向量,实现在多实例学习中对信息量高的句子进行结构化选择。
- 将2D注意力机制整合进基于双向LSTM的多实例学习框架中,以建模长距离依赖关系和上下文表征。
- 使用L1正则化优化注意力矩阵,以促进不同注意力方向的正交特征向量,增强注意力聚焦的多样性。
- 通过注意力向量的加权和构建结构化的、类似依赖关系的句子或实例集表征,用于关系分类。
- 采用交叉熵损失端到端训练模型,注意力权重通过反向传播学习。
实验结果
研究问题
- RQ1与1D注意力相比,2D结构化自注意力机制是否能提升关系抽取中的词级上下文表征学习?
- RQ2在多实例学习设置中,2D结构化句级注意力机制是否能更有效地识别并加权有效实例?
- RQ3所提出的多层级结构化自注意力机制是否在远程监督关系抽取基准上显著优于现有SOTA模型?
- RQ4与标准1D注意力相比,该模型的注意力分布在聚焦多样性与语义覆盖范围方面有何差异?
- RQ5结构化注意力机制在多大程度上减轻了远程监督中噪声实例的影响?
主要发现
- MLSSA-2模型在PT测试集上达到78.1%的F1得分,显著优于BiGRU+2ATT基线模型的75.3%。
- 在NYT数据集上,MLSSA-2的P@N达到78.1%,较最佳基线(PCNN+ATT)提升3.9个百分点。
- 该模型展现出更优的注意力多样性,多个注意力向量聚焦于不同词语与语义方面,而1D注意力通常集中于单一词语或短语。
- 可视化结果表明,MLSSA-2对语义相关短语如'founder of'和'co-founder'分配了高注意力,识别出其语义等价性,而BiGRU+2ATT未能实现这一点。
- 结构化的2D注意力机制实现了更优的实例选择,注意力在语义等价的句子间分布更均衡,增强了对改写(paraphrasing)的鲁棒性。
- 该模型在NYT和DBpedia葡萄牙语数据集上,多个指标(包括PR曲线、P@N和F1)均达到当前最优性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。