[论文解读] Automatic Generation of Benchmarks for Entity Recognition and Linking.
本文提出一种利用链接数据(Linked Data)自动生成高质量、大规模命名实体识别与链接(NER&EL)基准数据集的自动化方法,无需昂贵的人工标注。该方法生成的基准数据具备金标准质量,与现有手工创建的基准高度相似,可实现可扩展、低成本的 NER&EL 工具评估——通过对比 11 种工具在自动与手工生成基准上的表现,验证了该方法的有效性。
The velocity dimension of Big Data plays an increasingly important role in processing unstructured data. Heretofore, no large-scale benchmarks were available to evaluate the performance of named entity recognition and entity linking solutions. This unavailability was due to the creation of gold standards for named entity recognition and entity linking being a time-intensive, costly and error-prone task. We hence investigate the automatic generation of benchmark texts with entity annotations for named entity recognition and linking from Linked Data. The main advantage of automatically constructed benchmarks is that they can be readily generated at any time, and are cost-effective while being guaranteed to achieve gold-standard quality. We compare the performance of 11 tools on the benchmarks we generate with their performance on 16 benchmarks that were created manually. Our results suggest that our automatic benchmark generation approach can create varied benchmarks that have characteristics similar to those of existing benchmarks. In addition, we perform a large-scale runtime evaluation of entity recognition and linking solutions for the first time in literature. Our experimental results are available at this http URL
研究动机与目标
- 解决命名实体识别与链接(NER&EL)系统评估中缺乏大规模、高质量基准数据的问题。
- 克服手工创建基准的局限性,如耗时、成本高且易出错。
- 开发一种自动化方法,利用链接数据生成具备准确实体标注的基准文本。
- 确保自动生成的基准在特性上与手工创建的基准保持一致。
- 首次在文献中实现对 NER&EL 解决方案的大规模运行时评估。
提出的方法
- 利用公开的链接数据源提取结构化实体信息和上下文文本。
- 通过整合链接数据中的实体提及及其上下文描述,自动生成自然语言文本。
- 应用实体标注技术,对生成文本中的命名实体进行金标准精度的标注。
- 通过从链接数据源中采样不同领域和实体类型,确保基准的多样性。
- 通过对比工具在自动生成与手工创建基准上的表现,验证生成基准的质量。
- 使用统计和定性分析,评估自动生成与手工创建基准之间的相似性。
实验结果
研究问题
- RQ1自动生成的 NER 与实体链接基准能否达到与手工创建基准相当的金标准质量?
- RQ2在自动生成与手工创建基准上评估时,NER&EL 工具的性能特征有何差异?
- RQ3自动生成的基准在多大程度上反映了现实世界非结构化文本的多样性与复杂性?
- RQ4该自动基准生成方法能否支持 NER&EL 工具的大规模、可复现评估?
- RQ5在大规模自动生成基准上评估时,NER&EL 解决方案的可扩展性与运行时性能如何?
主要发现
- 该自动基准生成方法成功生成了高质量、具备金标准标注的文本,适用于 NER 与实体链接工具的评估。
- 11 种 NER&EL 工具在自动生成基准上的表现与在手工创建基准上的表现高度一致,表明两类基准在特性上具有强相似性。
- 生成的基准在实体类型、领域和语言模式方面具备足够的多样性,可支持稳健的评估。
- 本研究首次通过自动基准生成过程的可扩展性,实现了对 NER&EL 解决方案的大规模运行时评估。
- 实验结果(可在提供的 URL 获取)证实,自动生成的基准可靠且适用于可复现的基准测试。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。