Skip to main content
QUICK REVIEW

[论文解读] CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases

Xiang Ren, Zeqiu Wu|arXiv (Cornell University)|Oct 27, 2016
Topic Modeling参考文献 48被引用 68
一句话总结

CoType 提出了一种与领域无关的框架,通过知识库中的远程监督实现类型实体与关系的联合抽取。它采用上下文感知、抗噪声的嵌入学习方法,结合一种新颖的部分标签损失函数和实体-关系转换函数,在新闻、生物医学及通用领域中,相较于最先进方法平均提升 25% 的 F1 分数。

ABSTRACT

Extracting entities and relations for types of interest from text is important for understanding massive text corpora. Traditionally, systems of entity relation extraction have relied on human-annotated corpora for training and adopted an incremental pipeline. Such systems require additional human expertise to be ported to a new domain, and are vulnerable to errors cascading down the pipeline. In this paper, we investigate joint extraction of typed entities and relations with labeled data heuristically obtained from knowledge bases (i.e., distant supervision). As our algorithm for type labeling via distant supervision is context-agnostic, noisy training data poses unique challenges for the task. We propose a novel domain-independent framework, called CoType, that runs a data-driven text segmentation algorithm to extract entity mentions, and jointly embeds entity mentions, relation mentions, text features and type labels into two low-dimensional spaces (for entity and relation mentions respectively), where, in each space, objects whose types are close will also have similar representations. CoType, then using these learned embeddings, estimates the types of test (unlinkable) mentions. We formulate a joint optimization problem to learn embeddings from text corpora and knowledge bases, adopting a novel partial-label loss function for noisy labeled data and introducing an object "translation" function to capture the cross-constraints of entities and relations on each other. Experiments on three public datasets demonstrate the effectiveness of CoType across different domains (e.g., news, biomedical), with an average of 25% improvement in F1 score compared to the next best method.

研究动机与目标

  • 解决在缺乏人工标注训练数据的低资源、特定领域文本语料中,联合抽取类型化实体与关系的挑战。
  • 克服传统流水线方法中因依赖人工标注语料和预训练实体检测器而产生的错误传播与领域依赖问题。
  • 开发对远程监督中标签噪声具有鲁棒性的框架,其中训练标签自动从知识库生成,但包含错误。
  • 通过学习共享的低维表示来联合建模实体与关系提及,保留类型相似性与相互依赖关系。
  • 通过用数据驱动的分割算法替代预训练命名实体识别器,实现端到端、与领域无关的抽取。

提出的方法

  • 应用与领域无关的文本分割算法,直接从原始文本中提取候选实体提及,避免对预训练 NER 模型的依赖。
  • 利用共享表示学习框架,将实体提及、关系提及、文本特征和类型标签联合嵌入到两个低维空间中——一个用于实体,一个用于关系。
  • 构建联合优化问题,通过一种新颖的部分标签损失函数最小化嵌入,以处理远程监督中产生的噪声多类型标签。
  • 引入对象“转换”函数,建模实体与关系之间的交叉约束,捕捉相互依赖关系(例如,实体类型影响关系类型,反之亦然)。
  • 利用学习到的嵌入,通过在共享嵌入空间中测量相似性,预测测试提及(不可链接提及)的类型。
  • 使用未标注文本语料和知识库中的弱监督标签端到端训练模型,避免依赖干净的人工标注数据。

实验结果

研究问题

  • RQ1在存在噪声的远程监督下,联合嵌入框架能否有效建模类型化实体与关系之间的相互依赖?
  • RQ2如何使模型对从知识库自动生成的训练数据中的标签噪声具有鲁棒性?
  • RQ3与独立或流水线方法相比,建模实体与关系之间的相互约束在多大程度上能提升类型预测的准确性?
  • RQ4所提出的框架是否能在无需微调或人工标注的情况下,在新闻、生物医学和通用文本等多样化领域中超越现有方法?
  • RQ5与标准多标签或单标签学习方法相比,所提出的部分标签损失函数是否能更有效地处理模糊或多候选标签?

主要发现

  • CoType 在三个公开数据集(NYT、Wiki-KBP 和 BioInfer)上,平均 F1 分数比次优方法高出 25%。
  • 在 Wiki-KBP 数据集中,CoType 正确识别出复杂且依赖上下文的关系,如 'person:children' 和 'person:place_of_death',而其他方法则失败或分配错误类型。
  • 模型对高噪声水平表现出强鲁棒性——在 BioInfer 数据集中,实体提及高达 59.8% 和关系提及高达 41.1% 为噪声,但性能未显著下降。
  • 消融研究证实,部分标签损失和转换函数至关重要:CoType-EM(无转换)和 CoType-RM(无部分损失)均出现显著性能下降。
  • 该框架优于强基线方法如 MultiR 和 Logistic,后者常因标签噪声或缺乏联合建模而错误分类实体类型或无法检测有效关系。
  • CoType 在跨领域上成功泛化,涵盖新闻(NYT)、通用知识(Wiki-KBP)和生物医学文本(BioInfer),展现出强大的领域独立性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。