Skip to main content
QUICK REVIEW

[论文解读] Coreference Resolution as Query-based Span Prediction

Wei Wu, Fei Wang|arXiv (Cornell University)|Nov 5, 2019
Topic Modeling参考文献 43被引用 21
一句话总结

本文提出 CorefQA,一种新颖的共指消解框架,将该任务形式化为基于查询的跨度预测,类似于问答任务。通过为每个提及生成上下文感知的查询,并使用跨度预测模块,模型能够检索到被遗漏的提及,并利用外部问答数据集进行数据增强,从而在 CoNLL-2012 上取得 83.1 的 F1 分数(+3.5),在 GAP 上取得 87.5 的 F1 分数(+2.5),达到当前最先进水平。

ABSTRACT

In this paper, we present an accurate and extensible approach for the coreference resolution task. We formulate the problem as a span prediction task, like in machine reading comprehension (MRC): A query is generated for each candidate mention using its surrounding context, and a span prediction module is employed to extract the text spans of the coreferences within the document using the generated query. This formulation comes with the following key advantages: (1) The span prediction strategy provides the flexibility of retrieving mentions left out at the mention proposal stage; (2) In the MRC framework, encoding the mention and its context explicitly in a query makes it possible to have a deep and thorough examination of cues embedded in the context of coreferent mentions; and (3) A plethora of existing MRC datasets can be used for data augmentation to improve the model's generalization capability. Experiments demonstrate significant performance boost over previous models, with 87.5 (+2.5) F1 score on the GAP benchmark and 83.1 (+3.5) F1 score on the CoNLL-2012 benchmark.

研究动机与目标

  • 解决共指消解中提及提议的局限性,即在后续链接阶段无法恢复被遗漏的提及。
  • 通过支持更深层次的上下文分析,克服现有端到端模型中提及-上下文交互建模浅显的问题。
  • 利用现有问答数据集的丰富性进行数据增强,以提升模型的泛化能力和可迁移性。
  • 通过直接拼接输入的方式更有效地建模说话人身份,从而提升对话场景下的性能。
  • 提出一种灵活且可扩展的框架,支持对未在提议中出现的提及进行检索,并增强对提及提议错误的鲁棒性。

提出的方法

  • 将共指消解形式化为跨度预测任务,其中每个候选提及根据其上下文被转换为自然语言查询。
  • 使用跨度预测模块,利用生成的查询在文档中提取共指提及,从而实现对初始提议阶段遗漏提及的恢复。
  • 采用预训练的 Transformer 模型(如 BERT)对查询和文档进行编码,实现联合表示学习。
  • 通过直接拼接说话人的名字与其话语,将说话人身份作为输入引入,以更好地建模对话特有的线索。
  • 利用现有的问答数据集(如 SQuAD、BoolQ)进行预训练,以增强模型的泛化能力和迁移学习能力。
  • 采用多阶段训练策略:先在问答数据集上预训练,然后在共指特定数据集上进行端到端微调。

实验结果

研究问题

  • RQ1共指消解能否被有效重构为基于查询的跨度预测任务,以提升提及召回率和模型鲁棒性?
  • RQ2现有问答数据集在多大程度上可被用于数据增强,以提升共指消解性能?
  • RQ3在多人对话场景中,显式建模输入中的说话人身份在多大程度上能提升共指消解性能?
  • RQ4与标准端到端方法相比,基于查询的建模是否能更深层次、更有效地利用提及上下文中的词汇、语义和句法线索?
  • RQ5所提方法对初始提及提议阶段的错误有多敏感?是否能有效恢复被遗漏的提及?

主要发现

  • CorefQA 在 CoNLL-2012 基准上达到新的 SOTA F1 分数 83.1,相比之前模型提升 +3.5。
  • 在 GAP 基准上,模型取得 87.5 的 F1 分数,相比之前方法提升 +2.5,表明其在具有挑战性的代词消解任务上具备强大的泛化能力。
  • 与基线模型相比,该模型的提及召回率显著更高,尤其在每词跨度数(λ)较小时表现更优,表明其能有效恢复被遗漏的提及。
  • 所提出的说话人建模策略——将说话人姓名直接拼接到话语中——在说话人数量较多的文档中,优于二值化说话人特征编码方法。
  • 在现有问答数据集上进行预训练可带来可测量的性能增益,证实了通过问答式监督进行数据增强的有效性。
  • 定性分析表明,该模型能成功解析长距离回指现象,并有效利用说话人身份在对话上下文中正确将代词链接到其先行词。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。