QUICK REVIEW

[论文解读] Streamlining Cross-Document Coreference Resolution: Evaluation and Modeling

Arie Cattan, Alon Eirew|Deep Blue (University of Michigan)|Sep 23, 2020

Topic Modeling参考文献 30被引用 26

一句话总结

该论文提出了一种针对跨文档（CD）共指消解的现实评估方法，仅使用原始文本，排除孤立提及，并在主题级聚类上进行评估，以应对歧义问题。该研究首次提出端到端神经模型用于CD共指消解，采用基于Transformer的架构结合凝聚聚类方法，在其严格的评估协议下，事件共指消解的F1值达到71.1的新SOTA水平，显著优于先前方法。

ABSTRACT

Recent evaluation protocols for Cross-document (CD) coreference resolution have often been inconsistent or lenient, leading to incomparable results across works and overestimation of performance. To facilitate proper future research on this task, our primary contribution is proposing a pragmatic evaluation methodology which assumes access to only raw text -- rather than assuming gold mentions, disregards singleton prediction, and addresses typical targeted settings in CD coreference resolution. Aiming to set baseline results for future research that would follow our evaluation methodology, we build the first end-to-end model for this task. Our model adapts and extends recent neural models for within-document coreference resolution to address the CD coreference setting, which outperforms state-of-the-art results by a significant margin.

研究动机与目标

为解决跨文档共指消解中不一致且宽松的评估协议所导致的性能指标虚高问题。
建立一种基于仅原始文本输入、排除孤立预测结果的标准化、现实的评估框架，与文档内共指消解的标准保持一致。
开发首个不依赖外部资源或黄金提及的端到端神经模型，用于CD共指消解。
通过在所提出的严格方法下评估模型，为未来研究建立可靠的基线。
揭示在现实条件下性能显著下降的现象，凸显CD共指消解建模中仍存在巨大的改进空间。

提出的方法

提出一种新评估协议，仅使用原始文本输入，忽略孤立提及，并在主题级聚类上进行评估，以反映现实世界中的歧义性。
采用文档内共指消解的最先进神经模型，使用RoBERTa-large作为上下文编码器以生成提及表示。
引入端到端训练流程，联合学习提及检测与共指消解，无需依赖黄金提及。
采用凝聚聚类策略以处理跨文档共指消解的非线性结构，将提及表示聚合成簇。
使用成对打分机制计算提及对之间的共指可能性，并通过负采样提升训练效率。
应用主题聚类算法，基于语义相似性将文档分组为不同主题，实现在主题层面的评估，以检验模型对歧义的鲁棒性。

Figure 1: Overall model flow, with examples from Table 1 . (1) extract and score all possible spans (2) keep top spans according to $s_{m}(i)$ (3) score all pairs $s(i,j)$ and (4) cluster spans using agglomerative clustering.

实验结果

研究问题

RQ1当在仅使用原始文本且排除孤立提及的现实评估协议下，CD共指消解模型的性能会如何下降？
RQ2在主题层面与子主题层面之间，相似但不同的事件（如两次不同提名）之间的歧义在多大程度上影响模型性能？
RQ3统一的端到端神经模型是否能在不依赖外部资源或黄金提及的前提下，实现CD共指消解的SOTA结果？
RQ4在宽松与严格评估协议下，所提模型与先前方法的性能相比如何？
RQ5当前CD共指消解模型的主要失败模式是什么，特别是针对词汇变化与时间推理方面？

主要发现

所提出的评估协议揭示了显著的性能下降，尤其是在主题层面，表明先前评估因宽松假设而过于乐观。
在新评估协议下，该模型在事件共指消解上达到71.1 F1，在实体共指消解上达到67.3 F1，相比先前SOTA结果提升3个F1点。
从黄金提及（71.1 F1）到预测提及（事件为62.0 F1）的性能显著下降，表明提及检测质量存在巨大差距。
当用BERT-large替代RoBERTa-large时，性能下降4.1点，证实了强大上下文表征的重要性。
负采样显著提升了训练效率，并使性能提升1.4 F1点，表明其在处理大规模负样本对中的价值。
定性分析显示，模型在非词汇性共指（如“fired”与“relieved”）和时间指代（如“today”与“Saturday”）方面常出现失败，凸显未来研究的关键挑战。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。