Skip to main content
QUICK REVIEW

[论文解读] Entity-Relation Extraction as Multi-Turn Question Answering

Xiaoya Li, Fan Yin|arXiv (Cornell University)|May 14, 2019
Topic Modeling参考文献 52被引用 48
一句话总结

论文将实体-关系抽取视为多轮问答问题,使用QA风格模板和基于BERT的MRC模型联合提取实体与关系,在ACE04、ACE05、CoNLL04上达到新的SOTA,并为中文引入RESUME以进行分层推理。

ABSTRACT

In this paper, we propose a new paradigm for the task of entity-relation extraction. We cast the task as a multi-turn question answering problem, i.e., the extraction of entities and relations is transformed to the task of identifying answer spans from the context. This multi-turn QA formalization comes with several key advantages: firstly, the question query encodes important information for the entity/relation class we want to identify; secondly, QA provides a natural way of jointly modeling entity and relation; and thirdly, it allows us to exploit the well developed machine reading comprehension (MRC) models. Experiments on the ACE and the CoNLL04 corpora demonstrate that the proposed paradigm significantly outperforms previous best models. We are able to obtain the state-of-the-art results on all of the ACE04, ACE05 and CoNLL04 datasets, increasing the SOTA results on the three datasets to 49.4 (+1.0), 60.2 (+0.6) and 68.9 (+2.1), respectively. Additionally, we construct a newly developed dataset RESUME in Chinese, which requires multi-step reasoning to construct entity dependencies, as opposed to the single-step dependency extraction in the triplet exaction in previous datasets. The proposed multi-turn QA model also achieves the best performance on the RESUME dataset.

研究动机与目标

  • 为实体-关系抽取提出统一的、问答式表述以捕捉分层依赖性。
  • 提出一个包含头部实体和尾部实体/关系阶段的多轮QA流水线。
  • 利用MRC模型(BERT)结合BMEO标注来在一个上下文中提取多个答案。
  • 在ACE04、ACE05、CoNLL04数据集上展示最先进的结果,并为中文引入RESUME以实现多轮推理。

提出的方法

  • 将实体与关系抽取表述为由模板引导的序贯问答轮次。
  • 使用两阶段抽取:先通过实体特定问题抽取头部实体,然后通过联锁的关系/尾部实体问题进行抽取。
  • 从自然语言或伪问题生成问题;用先前提取的实体填充槽位。
  • 采用基于BERT的MRC并使用BMEO标注来预测跨轮次的答案片段。
  • 可选地应用强化学习(REINFORCE)来优化逐轮抽取的奖励。
  • 以综合损失L = (1-λ)L_head-entity + λ L_tail-entity+relation进行训练;在各阶段共享参数。

实验结果

研究问题

  • RQ1多轮QA范式是否能够有效建模复杂结构中实体与关系之间的分层依赖?
  • RQ2与传统三元组方法相比,结合信息量丰富的问题模板是否能提升对远距离或多跳关系的抽取?
  • RQ3强化学习与课程学习策略在基于多轮QA的实体-关系抽取中能带来哪些好处?
  • RQ4在标准基准(ACE04、ACE05、CoNLL04)以及需要更深层多轮推理的新数据集(RESUME)上,该方法的表现如何?

主要发现

DatasetModelEntity PEntity REntity FRelation PRelation RRelation F
ACE04Li/Ji 201483.576.279.760.836.149.3
ACE04Miwa & Bansal 201680.882.981.848.748.148.4
ACE04Katiyar & Cardie 201781.278.179.646.445.345.7
ACE04Bekoulis et al. 2018--81.6--47.5
ACE04Sun et al. 201883.983.283.664.955.159.6
ACE04Multi-turn QA84.784.984.864.856.260.2 (+1.0)
ACE05Li/Ji 201485.276.980.865.439.849.5
ACE05Miwa & Bansal 201682.983.983.457.254.055.6
ACE05Katiyar & Cardie 201784.081.382.655.551.853.6
ACE05Zhang 2017--83.5--57.5
ACE05Sun et al. 201883.983.283.664.955.159.6
ACE05Multi-turn QA89.086.687.869.268.268.9 (+1.1)
CoNLL04Miwa & Sasaki 2014--80.7--61.0
CoNLL04Zhang 2017--85.6--67.8
CoNLL04Bekoulis et al. 2018--83.6--62.0
CoNLL04Multi-turn QA89.086.687.869.268.268.9 (+1.1)
  • 在ACE04(Entity F1 提升1.0)、ACE05(Entity F1 提升1.2)、CoNLL04(Relation F1 提升1.1)上达到SOTA。
  • 通过利用能够捕捉分层标签依赖的多轮QA框架,优于此前的联合与流水线模型。
  • 自然语言问题模板在所有数据集上均优于伪问题。
  • 强化学习提供额外性能提升,尤其在轮数更多的场景(如RESUME)中。
  • RESUME数据集展示了模型处理四轮推理(中文人物传记)的能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。