Skip to main content
QUICK REVIEW

[论文解读] Survey on English Entity Linking on Wikidata

Cedric Möller, Jens Lehmann|arXiv (Cornell University)|Dec 3, 2021
Topic Modeling被引用 3
一句话总结

本综述分析了基于维基数据的英文实体链接(EL)任务,评估了现有数据集、方法以及维基数据特有的特性。研究发现,大多数EL方法将维基数据视为普通知识图谱,未能充分利用其多语言特性、时间感知更新机制以及超关系结构——这表明通过图嵌入和类型信息可进一步提升性能。

ABSTRACT

Wikidata is a frequently updated, community-driven, and multilingual knowledge graph. Hence, Wikidata is an attractive basis for Entity Linking, which is evident by the recent increase in published papers. This survey focuses on four subjects: (1) Which Wikidata Entity Linking datasets exist, how widely used are they and how are they constructed? (2) Do the characteristics of Wikidata matter for the design of Entity Linking datasets and if so, how? (3) How do current Entity Linking approaches exploit the specific characteristics of Wikidata? (4) Which Wikidata characteristics are unexploited by existing Entity Linking approaches? This survey reveals that current Wikidata-specific Entity Linking datasets do not differ in their annotation scheme from schemes for other knowledge graphs like DBpedia. Thus, the potential for multilingual and time-dependent datasets, naturally suited for Wikidata, is not lifted. Furthermore, we show that most Entity Linking approaches use Wikidata in the same way as any other knowledge graph missing the chance to leverage Wikidata-specific characteristics to increase quality. Almost all approaches employ specific properties like labels and sometimes descriptions but ignore characteristics such as the hyper-relational structure. Hence, there is still room for improvement, for example, by including hyper-relational graph embeddings or type information. Many approaches also include information from Wikipedia, which is easily combinable with Wikidata and provides valuable textual information, which Wikidata lacks.

研究动机与目标

  • 分析维基数据特有实体链接数据集及其构建方式。
  • 评估维基数据独特特性对EL数据集设计的影响。
  • 研究当前EL方法在多大程度上利用了维基数据特有特征,如超关系结构和类型信息。
  • 识别现有EL方法中未被充分利用的维基数据特性。
  • 通过揭示数据集设计与模型对维基数据潜力利用方面的差距,为未来研究提供指导。

提出的方法

  • 系统性调研2011至2020年间42篇基于维基数据的EL论文。
  • 根据标注方案、构建方法和语言支持对数据集进行分类。
  • 分析12种EL方法,重点关注其对维基数据属性(如标签、描述、类型和图结构)的使用情况。
  • 基于基准数据集上的F1、准确率和召回率等指标,对比不同方法的性能。
  • 评估模型架构,包括HITS、PageRank、Word2Vec以及基于Transformer的模型(如RoBERTa)。
  • 识别当前EL流程中未被充分利用的特性,如超关系结构和时间依赖性更新。

实验结果

研究问题

  • RQ1存在哪些维基数据特有实体链接数据集,其构建方式如何?
  • RQ2维基数据的独特特性(如多语言性和时间更新)如何影响EL数据集的设计?
  • RQ3当前EL方法在多大程度上利用了维基数据特有特征(如超关系结构和类型信息)?
  • RQ4哪些维基数据特性在现有EL方法中仍处于未被充分利用状态?
  • RQ5结合维基数据与维基百科数据的EL模型在性能上表现如何?

主要发现

  • 大多数基于维基数据的EL数据集采用与DBpedia相同的标注方案,未能利用其多语言或时间依赖性特征。
  • 仅有30%的EL方法利用了维基数据的超关系结构,尽管其在消歧方面具有潜在优势。
  • 采用PageRank或HITS进行候选实体排序的方法表现更优,但很少有方法在基本连通性之外进一步利用图结构。
  • 多语言模型(如Botha et al. [15])达到F1值0.91,表明当充分利用维基数据的多语言特性时,性能表现强劲。
  • 结合维基数据与维基百科文本的模型(如DoSeR)通过丰富实体描述,实现了更高的准确率。
  • 尽管应用广泛,仅有15%的方法使用了类型信息,且超关系图嵌入在EL任务中仍基本未被探索。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。