Skip to main content
QUICK REVIEW

[论文解读] Improving Distantly Supervised Relation Extraction using Word and Entity Based Attention

Sharmistha Jat, Siddhesh Khandelwal|arXiv (Cornell University)|Apr 19, 2018
Topic Modeling参考文献 15被引用 94
一句话总结

本文提出了用于远程监督关系抽取的词-和实体注意力模型(BGWA 和 EA),并引入一个带有降噪测试数据的新 GDS 数据集,同时展示 BGWA、EA 与 PCNN 的集合在精确度上优于基线。

ABSTRACT

Relation extraction is the problem of classifying the relationship between two entities in a given sentence. Distant Supervision (DS) is a popular technique for developing relation extractors starting with limited supervision. We note that most of the sentences in the distant supervision relation extraction setting are very long and may benefit from word attention for better sentence representation. Our contributions in this paper are threefold. Firstly, we propose two novel word attention models for distantly- supervised relation extraction: (1) a Bi-directional Gated Recurrent Unit (Bi-GRU) based word attention model (BGWA), (2) an entity-centric attention model (EA), and (3) a combination model which combines multiple complementary models using weighted voting method for improved relation extraction. Secondly, we introduce GDS, a new distant supervision dataset for relation extraction. GDS removes test data noise present in all previous distant- supervision benchmark datasets, making credible automatic evaluation possible. Thirdly, through extensive experiments on multiple real-world datasets, we demonstrate the effectiveness of the proposed methods.

研究动机与目标

  • 通过关注相关句子上下文来改进远程监督下的关系抽取,使用注意力机制。
  • 开发两种新型基于注意力的模型(BGWA 和 EA),以更好地捕捉有用词汇和实体相关线索。
  • 通过去除测试集噪声,创建一个干净、可信的评估数据集(GDS),以实现可靠的自动评估。
  • 证明在不同数据集上,模型集成相对于单一模型具有更优的性能。

提出的方法

  • 引入 BGWA:基于 Bi-GRU 的词注意力,用于计算词级与目标关系的相关性并应用分段最大池化。
  • 引入 EA:以实体为中心的注意力,按与每个实体相关性的权重对词进行加权,并使用带实体注意力池化的 PCNN。
  • 通过在开发集上用线性回归学习权重,将 BGWA、EA 和 PCNN 组合成加权投票集成。
  • 构建 Google Distant Supervision (GDS),一个通过确保每个实例集至少有一句话表达所分配关系来降低测试集噪声的数据集。
  • 在两个数据集(Riedel2010-b 和 GDS)上使用精确-召回曲线和 AUC 进行模型选择的评估。

实验结果

研究问题

  • RQ1词级注意力(BGWA)是否通过突出显示有信息的短语来改进远距监督下的关系抽取?
  • RQ2以实体为中心的注意力(EA)是否通过关注与实体相关的上下文来改进关系抽取?
  • RQ3通过加权集成将多个互补模型结合是否能在远距离监督的关系抽取中超越单一模型?
  • RQ4一个经过清洗的 GDS 数据集是否为远距监督的关系抽取提供更可靠的自动评估?
  • RQ5在具有不同噪声水平和关系集合大小的数据集中,BGWA 与 EA 的相对表现如何?

主要发现

  • BGWA 和 EA 在两个数据集上的不同召回范围内达到更高或具有竞争力的精确度,相较于最先进的基线。
  • BGWA、EA 和 PCNN 的集成在单独模型之上进一步提高了精度(在 Riedel2010-b 数据集的不同召回范围内尤为显著,提升约 2-3%。)。
  • BGWA 在 Riedel2010-b 上表现更好,而 EA 在 GDS 上表现更佳,显示出互补优势。
  • 注意力模型有助于识别与目标关系一致的关键词和实体相关线索,注意力可视化所示。
  • GDS 通过确保每个实例集至少包含一句表达所分配关系的句子,从而提供可靠的自动评估,减轻测试集噪声。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。