Skip to main content
QUICK REVIEW

[论文解读] GraphIE: A Graph-Based Framework for Information Extraction

Yujie Qian, Enrico Santus|arXiv (Cornell University)|Oct 31, 2018
Topic Modeling参考文献 32被引用 65
一句话总结

tldr: GraphIE 引入一个基于任务特定图的图卷积网络模块,以将非局部上下文注入序列标注中,在文本、社交媒体和视觉域上超越强基线 SeqIE 的信息抽取性能。

ABSTRACT

Most modern Information Extraction (IE) systems are implemented as sequential taggers and only model local dependencies. Non-local and non-sequential context is, however, a valuable source of information to improve predictions. In this paper, we introduce GraphIE, a framework that operates over a graph representing a broad set of dependencies between textual units (i.e. words or sentences). The algorithm propagates information between connected nodes through graph convolutions, generating a richer representation that can be exploited to improve word-level predictions. Evaluation on three different tasks --- namely textual, social media and visual information extraction --- shows that GraphIE consistently outperforms the state-of-the-art sequence tagging model by a significant margin.

研究动机与目标

  • 促使信息提取模型利用超越局部词序列的非局部和非序列上下文。
  • 提出 GraphIE:一个基于图的编码-解码框架,通过图卷积传播信息。
  • 展示 GraphIE 在文本、社交媒体与视觉信息提取任务上使用任务特定图的有效性。

提出的方法

  • 编码器使用 BiLSTM 及 CharCNN 特征为文本单位(单词或句子)生成本地上下文表示。
  • 图模块将图卷积网络(GCN)用于在文本单位之间的图结构依赖上传播信息。
  • 解码器是一个 BiLSTM+CRF 标注器;图的输出初始化解码器隐藏状态以注入上下文信息。
  • 同时支持句子级图和词级图,使非局部上下文有助于降低标注歧义。
  • 边类型可用单独权重建模,多个 GCN 层扩展图上的感受野。
  • 训练使用 Adam 优化 CRF 目标并进行 dropout 正则化。

实验结果

研究问题

  • RQ1基于图的模块是否能够捕捉非局部依赖,从而改善信息提取中的词级标注?
  • RQ2任务特定的图(词级或句子级)是否提供相关的归纳偏置,从而提升相较于序列基线的性能?
  • RQ3相较于 SeqIE 基线,GraphIE 在文本、社交媒体和视觉信息提取任务中的表现如何?
  • RQ4图结构对性能提升的贡献与简单特征增强或随机连接相比有何区别?
  • RQ5GraphIE 是否能够泛化到未见输入布局以及具有非局部依赖的布局?

主要发现

数据集模型F1
CoNLL03GraphIE91.74
ChemdnerGraphIE89.71
  • GraphIE 在三项信息提取任务上持续优于 SeqIE(BiLSTM+CRF):文本任务(CoNLL03 和 Chemdner)、社交媒体任务(Education 与 Job)以及视觉信息提取任务(AECR)。
  • 在 CoNLL03 上,GraphIE 达到 91.74 的 F1,超越 SeqIE 的 91.16。
  • 在 Chemdner 上,GraphIE 达到 89.71 的 F1,优于 SeqIE 的 88.28。
  • 在社交媒体中,GraphIE 获得更大提升,尤其在 Education 提取上比 SeqIE 提升 3.7%。
  • 在视觉信息提取中,GraphIE 在各属性上的微观 F1 提升约 1.2% 相对于 SeqIE。
  • 消融实验显示边类型感知、水平/垂直边的贡献,以及 CRF 层各自对性能有显著提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。