QUICK REVIEW

[论文解读] GraphIE: A Graph-Based Framework for Information Extraction

Yujie Qian, Enrico Santus|arXiv (Cornell University)|Oct 31, 2018

Topic Modeling参考文献 32被引用 65

一句话总结

tldr: GraphIE 引入一个基于任务特定图的图卷积网络模块，以将非局部上下文注入序列标注中，在文本、社交媒体和视觉域上超越强基线 SeqIE 的信息抽取性能。

ABSTRACT

Most modern Information Extraction (IE) systems are implemented as sequential taggers and only model local dependencies. Non-local and non-sequential context is, however, a valuable source of information to improve predictions. In this paper, we introduce GraphIE, a framework that operates over a graph representing a broad set of dependencies between textual units (i.e. words or sentences). The algorithm propagates information between connected nodes through graph convolutions, generating a richer representation that can be exploited to improve word-level predictions. Evaluation on three different tasks --- namely textual, social media and visual information extraction --- shows that GraphIE consistently outperforms the state-of-the-art sequence tagging model by a significant margin.

研究动机与目标

促使信息提取模型利用超越局部词序列的非局部和非序列上下文。
提出 GraphIE：一个基于图的编码-解码框架，通过图卷积传播信息。
展示 GraphIE 在文本、社交媒体与视觉信息提取任务上使用任务特定图的有效性。

提出的方法

编码器使用 BiLSTM 及 CharCNN 特征为文本单位（单词或句子）生成本地上下文表示。
图模块将图卷积网络（GCN）用于在文本单位之间的图结构依赖上传播信息。
解码器是一个 BiLSTM+CRF 标注器；图的输出初始化解码器隐藏状态以注入上下文信息。
同时支持句子级图和词级图，使非局部上下文有助于降低标注歧义。
边类型可用单独权重建模，多个 GCN 层扩展图上的感受野。
训练使用 Adam 优化 CRF 目标并进行 dropout 正则化。

实验结果

研究问题

RQ1基于图的模块是否能够捕捉非局部依赖，从而改善信息提取中的词级标注？
RQ2任务特定的图（词级或句子级）是否提供相关的归纳偏置，从而提升相较于序列基线的性能？
RQ3相较于 SeqIE 基线，GraphIE 在文本、社交媒体和视觉信息提取任务中的表现如何？
RQ4图结构对性能提升的贡献与简单特征增强或随机连接相比有何区别？
RQ5GraphIE 是否能够泛化到未见输入布局以及具有非局部依赖的布局？

主要发现

数据集	模型	F1
CoNLL03	GraphIE	91.74
Chemdner	GraphIE	89.71

GraphIE 在三项信息提取任务上持续优于 SeqIE（BiLSTM+CRF）：文本任务（CoNLL03 和 Chemdner）、社交媒体任务（Education 与 Job）以及视觉信息提取任务（AECR）。
在 CoNLL03 上，GraphIE 达到 91.74 的 F1，超越 SeqIE 的 91.16。
在 Chemdner 上，GraphIE 达到 89.71 的 F1，优于 SeqIE 的 88.28。
在社交媒体中，GraphIE 获得更大提升，尤其在 Education 提取上比 SeqIE 提升 3.7%。
在视觉信息提取中，GraphIE 在各属性上的微观 F1 提升约 1.2% 相对于 SeqIE。
消融实验显示边类型感知、水平/垂直边的贡献，以及 CRF 层各自对性能有显著提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。