QUICK REVIEW

[论文解读] Coreference Resolution as Query-based Span Prediction

Wei Wu, Fei Wang|arXiv (Cornell University)|Nov 5, 2019

Topic Modeling参考文献 43被引用 21

一句话总结

本文提出 CorefQA，一种新颖的共指消解框架，将该任务形式化为基于查询的跨度预测，类似于问答任务。通过为每个提及生成上下文感知的查询，并使用跨度预测模块，模型能够检索到被遗漏的提及，并利用外部问答数据集进行数据增强，从而在 CoNLL-2012 上取得 83.1 的 F1 分数（+3.5），在 GAP 上取得 87.5 的 F1 分数（+2.5），达到当前最先进水平。

ABSTRACT

In this paper, we present an accurate and extensible approach for the coreference resolution task. We formulate the problem as a span prediction task, like in machine reading comprehension (MRC): A query is generated for each candidate mention using its surrounding context, and a span prediction module is employed to extract the text spans of the coreferences within the document using the generated query. This formulation comes with the following key advantages: (1) The span prediction strategy provides the flexibility of retrieving mentions left out at the mention proposal stage; (2) In the MRC framework, encoding the mention and its context explicitly in a query makes it possible to have a deep and thorough examination of cues embedded in the context of coreferent mentions; and (3) A plethora of existing MRC datasets can be used for data augmentation to improve the model's generalization capability. Experiments demonstrate significant performance boost over previous models, with 87.5 (+2.5) F1 score on the GAP benchmark and 83.1 (+3.5) F1 score on the CoNLL-2012 benchmark.

研究动机与目标

解决共指消解中提及提议的局限性，即在后续链接阶段无法恢复被遗漏的提及。
通过支持更深层次的上下文分析，克服现有端到端模型中提及-上下文交互建模浅显的问题。
利用现有问答数据集的丰富性进行数据增强，以提升模型的泛化能力和可迁移性。
通过直接拼接输入的方式更有效地建模说话人身份，从而提升对话场景下的性能。
提出一种灵活且可扩展的框架，支持对未在提议中出现的提及进行检索，并增强对提及提议错误的鲁棒性。

提出的方法

将共指消解形式化为跨度预测任务，其中每个候选提及根据其上下文被转换为自然语言查询。
使用跨度预测模块，利用生成的查询在文档中提取共指提及，从而实现对初始提议阶段遗漏提及的恢复。
采用预训练的 Transformer 模型（如 BERT）对查询和文档进行编码，实现联合表示学习。
通过直接拼接说话人的名字与其话语，将说话人身份作为输入引入，以更好地建模对话特有的线索。
利用现有的问答数据集（如 SQuAD、BoolQ）进行预训练，以增强模型的泛化能力和迁移学习能力。
采用多阶段训练策略：先在问答数据集上预训练，然后在共指特定数据集上进行端到端微调。

实验结果

研究问题

RQ1共指消解能否被有效重构为基于查询的跨度预测任务，以提升提及召回率和模型鲁棒性？
RQ2现有问答数据集在多大程度上可被用于数据增强，以提升共指消解性能？
RQ3在多人对话场景中，显式建模输入中的说话人身份在多大程度上能提升共指消解性能？
RQ4与标准端到端方法相比，基于查询的建模是否能更深层次、更有效地利用提及上下文中的词汇、语义和句法线索？
RQ5所提方法对初始提及提议阶段的错误有多敏感？是否能有效恢复被遗漏的提及？

主要发现

CorefQA 在 CoNLL-2012 基准上达到新的 SOTA F1 分数 83.1，相比之前模型提升 +3.5。
在 GAP 基准上，模型取得 87.5 的 F1 分数，相比之前方法提升 +2.5，表明其在具有挑战性的代词消解任务上具备强大的泛化能力。
与基线模型相比，该模型的提及召回率显著更高，尤其在每词跨度数（λ）较小时表现更优，表明其能有效恢复被遗漏的提及。
所提出的说话人建模策略——将说话人姓名直接拼接到话语中——在说话人数量较多的文档中，优于二值化说话人特征编码方法。
在现有问答数据集上进行预训练可带来可测量的性能增益，证实了通过问答式监督进行数据增强的有效性。
定性分析表明，该模型能成功解析长距离回指现象，并有效利用说话人身份在对话上下文中正确将代词链接到其先行词。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。