QUICK REVIEW

[论文解读] Leveraging Knowledge Bases in LSTMs for Improving Machine Reading

Bishan Yang, Tom M. Mitchell|arXiv (Cornell University)|Feb 25, 2019

Topic Modeling参考文献 46被引用 27

一句话总结

该论文提出KBLSTM，一种新颖的双向LSTM架构，通过注意力机制与哨兵门动态整合连续知识库（KB）嵌入，以决定何时及使用何种知识。该方法在ACE2005数据集上实现了实体和事件抽取的最先进性能，通过自适应利用WordNet和NELL嵌入，优于先前无需标准实体标注的方法。

ABSTRACT

This paper focuses on how to take advantage of external knowledge bases (KBs) to improve recurrent neural networks for machine reading. Traditional methods that exploit knowledge from KBs encode knowledge as discrete indicator features. Not only do these features generalize poorly, but they require task-specific feature engineering to achieve good performance. We propose KBLSTM, a novel neural model that leverages continuous representations of KBs to enhance the learning of recurrent neural networks for machine reading. To effectively integrate background knowledge with information from the currently processed text, our model employs an attention mechanism with a sentinel to adaptively decide whether to attend to background knowledge and which information from KBs is useful. Experimental results show that our model achieves accuracies that surpass the previous state-of-the-art results for both entity extraction and event extraction on the widely used ACE2005 dataset.

研究动机与目标

解决传统基于特征的KB集成方法在RNN中的局限性，这些方法依赖稀疏、任务特定且泛化能力差的符号特征。
使循环神经网络能够在序列处理过程中动态且上下文相关地利用外部知识库。
通过将KB概念的连续表示（WordNet和NELL）与BiLSTM隐藏状态结合，提升机器阅读在实体和事件抽取任务上的性能。
开发一种机制，可决定何时关注KB知识以及哪些KB概念相关，避免因多义性或与上下文无关的KB使用导致的误分类。

提出的方法

KBLSTM通过在每个时间步将KB概念的连续嵌入（来自WordNet和NELL）整合到隐藏状态计算中，扩展了双向LSTM。
注意力机制基于当前输入词及其上下文与相关KB概念的语义相关性，计算动态权重。
引入哨兵门以学习是否应关注KB知识或仅依赖文本上下文，实现上下文感知的融合。
知识图谱嵌入通过知识图谱嵌入方法学习，用作KB概念的连续、密集表示。
模型通过CRF层进行端到端训练，用于实体和事件抽取任务的序列标注。
注意力机制计算KB概念嵌入的加权和，随后与LSTM隐藏状态拼接或逐元素结合。

实验结果

研究问题

RQ1连续知识库嵌入能否有效集成到循环神经网络中以提升机器阅读性能？
RQ2神经模型如何动态决定何时以及从外部KB中使用哪些知识与当前文本上下文相关？
RQ3哨兵机制是否可通过允许模型在文本上下文足够时覆盖潜在误导的KB信息来提升性能？
RQ4所提出方法是否在实体和事件抽取基准上优于传统基于特征的KB集成方法和标准BiLSTM模型？
RQ5该模型在多大程度上能通过上下文感知KB注意力区分多义词（如'Clinton'）？

主要发现

KBLSTM-CRF在ACE2005事件抽取测试集上达到69.7的新SOTA F1分数，超越了先前所有方法，包括使用标准实体标注的方法。
与基线BiLSTM相比，事件抽取的F1提升5.0分；与BiLSTM-Fea-CRF相比，提升4.0分，证明了连续KB集成的有效性。
在实体抽取任务中，KBLSTM-CRF达到71.6的F1分数，显著优于基线BiLSTM-CRF（65.4）及其他基于特征的模型。
可视化显示，模型能根据上下文为同一词语（如'clinton'）关注不同的WordNet和NELL概念，正确识别其为人物或地点。
哨兵门学会在文本上下文足够时抑制KB注意力，例如当'在'表示位置时，减少对可能误导的KB条目的依赖。
模型能有效处理多义性，例如将'head'作为事件触发词时，根据上下文选择适当的KB概念（如表示‘前往’或‘开始位置’）

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。