Skip to main content
QUICK REVIEW

[论文解读] Distantly Labeling Data for Large Scale Cross-Document Coreference

Sameer Singh, Michael Wick|arXiv (Cornell University)|May 24, 2010
Topic Modeling参考文献 29被引用 18
一句话总结

本文提出一种远程监督方法,利用维基百科作为弱对齐的知识源,自动标注大规模跨文档共指消解数据集。通过使用生成模型将《纽约时报》提及内容与维基百科实体对齐,准确率达92%,作者据此训练条件随机场模型,在未见实体上表现出高精度,证明了该方法在规模和泛化能力上超越维基百科数据的潜力。

ABSTRACT

Cross-document coreference, the problem of resolving entity mentions across multi-document collections, is crucial to automated knowledge base construction and data mining tasks. However, the scarcity of large labeled data sets has hindered supervised machine learning research for this task. In this paper we develop and demonstrate an approach based on ``distantly-labeling'' a data set from which we can train a discriminative cross-document coreference model. In particular we build a dataset of more than a million people mentions extracted from 3.5 years of New York Times articles, leverage Wikipedia for distant labeling with a generative model (and measure the reliability of such labeling); then we train and evaluate a conditional random field coreference model that has factors on cross-document entities as well as mention-pairs. This coreference model obtains high accuracy in resolving mentions and entities that are not present in the training data, indicating applicability to non-Wikipedia data. Given the large amount of data, our work is also an exercise demonstrating the scalability of our approach.

研究动机与目标

  • 解决跨文档共指消解任务中大规模标注数据集稀缺的问题,这是知识库构建中监督学习的关键瓶颈。
  • 克服大规模跨文档共指消解任务中人工标注成本高、认知负担重的问题。
  • 开发一种可扩展的自动化方法,利用远程标注的维基百科作为弱监督源生成训练数据。
  • 在自动标注的数据上训练条件随机场模型,使其能泛化到维基百科中未出现的实体。
  • 证明在单台CPU上10小时内完成对超100万提及的大规模共指消解数据集的训练与推理的可行性。

提出的方法

  • 通过生成概率模型将《纽约时报》提及内容与维基百科实体对齐,将维基百科作为远程标注源。
  • 应用生成模型计算提及-实体对齐的概率,实现92%的标注准确率。
  • 构建一个条件随机场(CRF)共指消解模型,其因子同时作用于提及对与跨文档实体。
  • 在训练与推理过程中,采用基于遮罩(canopy)的Metropolis-Hastings提议分布,高效探索指数级假设空间。
  • 利用上下文相似性与基于维基百科的特征,提升提及-实体对齐效果与模型泛化能力。
  • 使用一族利用遮罩的提议分布,降低计算复杂度,实现对超过一百万提及的可扩展处理。

实验结果

研究问题

  • RQ1维基百科能否作为弱监督源,有效实现大规模跨文档共指消解数据的自动标注?
  • RQ2生成模型在将《纽约时报》提及内容与维基百科实体对齐方面的准确率如何?
  • RQ3在远程标注数据上训练的CRF模型能否泛化到维基百科中未出现的提及与实体?
  • RQ4在实际时间和资源约束下,是否可行对大规模(超过100万提及)的跨文档共指消解模型进行训练与推理?
  • RQ5模型在未见实体上的表现在多大程度上验证了远程监督方法的质量?

主要发现

  • 生成模型在将《纽约时报》提及内容与维基百科实体对齐方面达到92%的准确率,验证了远程监督的可靠性。
  • 在远程标注数据上训练的CRF模型在处理维基百科中未出现的提及与实体时仍表现出高准确率,表明其具备强大的泛化能力。
  • 在单台CPU上,对超过一百万提及的数据集完成训练与推理的时间不足10小时,证明了强大的可扩展性。
  • 基于遮罩的Metropolis-Hastings采样策略有效降低了探索指数级假设空间的计算负担。
  • 模型在未见实体上的表现证实,利用维基百科进行远程监督可生成高质量的训练数据,适用于大规模共指消解任务。
  • 该方法可支持下游应用,如搜索、声誉分析与趋势检测,并可建议维基百科的重定向与消歧义。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。