Skip to main content
QUICK REVIEW

[论文解读] Probabilistic Coreference in Information Extraction

Andrew Kehler|ArXiv.org|Jun 10, 1997
Semantic Web and Ontologies参考文献 8被引用 50
一句话总结

本文提出一种用于信息抽取中的共指消解的概率方法,采用基于特征的模型来估计实体模板之间不同共指配置的概率分布。该研究评估了四种方法——均匀分布、贪心法、合并决策法和证据法,结果表明证据模型显著降低了交叉熵,表明其在下游融合系统中具有更优的不确定性估计。

ABSTRACT

Certain applications require that the output of an information extraction system be probabilistic, so that a downstream system can reliably fuse the output with possibly contradictory information from other sources. In this paper we consider the problem of assigning a probability distribution to alternative sets of coreference relationships among entity descriptions. We present the results of initial experiments with several approaches to estimating such distributions in an application using SRI's FASTUS information extraction system.

研究动机与目标

  • 使信息抽取系统能够输出概率化的共指关系,而非确定性关系,以支持来自多个数据源的冲突数据的可靠融合。
  • 解决现有信息抽取系统(如 FASTUS)的局限性,即仅生成单一共指配置而无法表达不确定性。
  • 评估多种基于特征的模型,利用粗粒度上下文特征估计共指配置的概率分布。
  • 确定哪种模型能生成更校准的概率估计(以交叉熵衡量),以供下游融合系统使用。
  • 探索使用有限训练数据训练模型的可行性,使其能够泛化至短篇、领域特定文本中的共指集合。

提出的方法

  • 系统使用 SRI 的 FASTUS 信息抽取流水线处理文本,提取实体模板,并从可能指代同一实体的提及中形成共指集合。
  • 共指配置被定义为共指集合内模板的划分,受约束条件(如类型不兼容)限制,排除无效配置。
  • 训练四种模型为共指配置分配概率:均匀模型(均匀先验)、贪心模型(最大后验估计)、合并决策模型(成对合并决策)和证据模型(基于证据的成对概率)。
  • 证据模型基于上下文特征(如接近度、句法相似度、语义兼容性)计算成对概率,并将它们组合为联合分布。
  • 通过在保留的测试集上计算交叉熵损失来评估模型性能,较低的值表示概率估计更具校准性。
  • 所有模型均在小规模、领域特定的军事消息文本语料上进行训练和测试,共指集合源自自由文本和表格中的实体提及。

实验结果

研究问题

  • RQ1概率化共指消解能否提升信息抽取输出在下游融合系统中的可靠性?
  • RQ2在多个基于特征的模型中,哪一个能生成最准确且校准性最佳的共指配置概率分布?
  • RQ3与贪心法或均匀先验等简单模型相比,聚合所有成对证据的证据模型在不确定性估计方面表现如何?
  • RQ4在有限训练数据下,仅使用粗粒度特征集在多大程度上能生成有效的概率化共指模型?
  • RQ5在所有模板对之间包含成对证据是否能提升性能,相较于依赖顺序合并决策的模型?

主要发现

  • 证据模型在合并测试集上的交叉熵最低(1.00),显著优于均匀模型(2.01)、贪心模型(1.41)和合并决策模型(1.27)。
  • 与合并决策模型相比,证据模型在合并测试集上将交叉熵降低了10%;与贪心模型相比,降低了50%。
  • 合并决策模型在原始准确率上未超过贪心模型,但降低了交叉熵,表明其不确定性校准性更优。
  • 证据模型优于更直观的合并决策模型,表明对所有成对证据的聚合比顺序决策更有效。
  • 尽管训练数据有限,结果在三个测试划分中保持一致,表明证据模型在粗粒度特征下具有鲁棒性。
  • 本研究表明,即使训练数据极少且特征粗略,概率化共指模型仍可有效部署于信息抽取系统中,以支持下游融合。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。