[论文解读] GraphIE: A Graph-Based Framework for Information Extraction
tldr: GraphIE 引入一个基于任务特定图的图卷积网络模块,以将非局部上下文注入序列标注中,在文本、社交媒体和视觉域上超越强基线 SeqIE 的信息抽取性能。
Most modern Information Extraction (IE) systems are implemented as sequential taggers and only model local dependencies. Non-local and non-sequential context is, however, a valuable source of information to improve predictions. In this paper, we introduce GraphIE, a framework that operates over a graph representing a broad set of dependencies between textual units (i.e. words or sentences). The algorithm propagates information between connected nodes through graph convolutions, generating a richer representation that can be exploited to improve word-level predictions. Evaluation on three different tasks --- namely textual, social media and visual information extraction --- shows that GraphIE consistently outperforms the state-of-the-art sequence tagging model by a significant margin.
研究动机与目标
- 促使信息提取模型利用超越局部词序列的非局部和非序列上下文。
- 提出 GraphIE:一个基于图的编码-解码框架,通过图卷积传播信息。
- 展示 GraphIE 在文本、社交媒体与视觉信息提取任务上使用任务特定图的有效性。
提出的方法
- 编码器使用 BiLSTM 及 CharCNN 特征为文本单位(单词或句子)生成本地上下文表示。
- 图模块将图卷积网络(GCN)用于在文本单位之间的图结构依赖上传播信息。
- 解码器是一个 BiLSTM+CRF 标注器;图的输出初始化解码器隐藏状态以注入上下文信息。
- 同时支持句子级图和词级图,使非局部上下文有助于降低标注歧义。
- 边类型可用单独权重建模,多个 GCN 层扩展图上的感受野。
- 训练使用 Adam 优化 CRF 目标并进行 dropout 正则化。
实验结果
研究问题
- RQ1基于图的模块是否能够捕捉非局部依赖,从而改善信息提取中的词级标注?
- RQ2任务特定的图(词级或句子级)是否提供相关的归纳偏置,从而提升相较于序列基线的性能?
- RQ3相较于 SeqIE 基线,GraphIE 在文本、社交媒体和视觉信息提取任务中的表现如何?
- RQ4图结构对性能提升的贡献与简单特征增强或随机连接相比有何区别?
- RQ5GraphIE 是否能够泛化到未见输入布局以及具有非局部依赖的布局?
主要发现
| 数据集 | 模型 | F1 |
|---|---|---|
| CoNLL03 | GraphIE | 91.74 |
| Chemdner | GraphIE | 89.71 |
- GraphIE 在三项信息提取任务上持续优于 SeqIE(BiLSTM+CRF):文本任务(CoNLL03 和 Chemdner)、社交媒体任务(Education 与 Job)以及视觉信息提取任务(AECR)。
- 在 CoNLL03 上,GraphIE 达到 91.74 的 F1,超越 SeqIE 的 91.16。
- 在 Chemdner 上,GraphIE 达到 89.71 的 F1,优于 SeqIE 的 88.28。
- 在社交媒体中,GraphIE 获得更大提升,尤其在 Education 提取上比 SeqIE 提升 3.7%。
- 在视觉信息提取中,GraphIE 在各属性上的微观 F1 提升约 1.2% 相对于 SeqIE。
- 消融实验显示边类型感知、水平/垂直边的贡献,以及 CRF 层各自对性能有显著提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。