Skip to main content
QUICK REVIEW

[论文解读] JRC-Names: A freely available, highly multilingual named entity resource

Ralf Steinberger, Bruno Pouliquen|arXiv (Cornell University)|Sep 24, 2013
Topic Modeling参考文献 8被引用 55
一句话总结

本文介绍了 JRC-Names,这是一个免费提供的多语言命名实体资源,包含约 205,000 个个人和组织名称,以及大致相同数量的拼写变体,涵盖 20 多种书写系统和多种语言。该资源通过七年大规模新闻分析和维基百科数据挖掘构建而成,可支持名称搜索、机器学习训练种子生成以及机器翻译改进等应用,并提供每日更新,能够有效处理词形变化问题。

ABSTRACT

This paper describes a new, freely available, highly multilingual named entity resource for person and organisation names that has been compiled over seven years of large-scale multilingual news analysis combined with Wikipedia mining, resulting in 205,000 per-son and organisation names plus about the same number of spelling variants written in over 20 different scripts and in many more languages. This resource, produced as part of the Europe Media Monitor activity (EMM, http://emm.newsbrief.eu/overview.html), can be used for a number of purposes. These include improving name search in databases or on the internet, seeding machine learning systems to learn named entity recognition rules, improve machine translation results, and more. We describe here how this resource was created; we give statistics on its current size; we address the issue of morphological inflection; and we give details regarding its functionality. Updates to this resource will be made available daily.

研究动机与目标

  • 创建一个大规模、免费获取、多语言的个人和组织名称命名实体资源。
  • 解决在多种语言和书写系统中名称变体和词形变化的挑战。
  • 支持实际的自然语言处理应用,如改进的名称搜索、机器学习训练以及机器翻译优化。
  • 提供一个持续更新的资源,其数据源自新闻和维基百科等真实世界数据源。
  • 实现在多语言环境中跨语言和跨书写系统的命名实体处理。

提出的方法

  • 该资源通过欧洲媒体监测(EMM)系统收集的多语言新闻数据进行大规模分析构建而成。
  • 采用维基百科数据挖掘技术,从多种语言和书写系统中提取并验证个人和组织名称。
  • 对命名实体进行规范化处理并链接到其标准形式,系统性地收集和存储拼写变体。
  • 通过包含不同语法格和词形变化的变体形式,解决词形变化问题。
  • 该数据集经过七年的持续数据收集与整理,确保了广泛的语言覆盖范围。
  • 提供每日更新,以保持其在生产环境和研究应用中的时效性与相关性。

实验结果

研究问题

  • RQ1如何从新闻和维基百科等多样化数据源系统性地构建大规模多语言命名实体资源?
  • RQ2词形变化和书写系统多样性对命名实体识别与规范化有何影响?
  • RQ3如何通过一个免费、持续更新的命名实体资源来提升下游自然语言处理任务(如机器翻译和信息检索)的性能?
  • RQ4一个支持多种书写系统和语言的多语言命名实体资源的规模和语言覆盖范围如何?
  • RQ5在命名实体识别的机器学习系统训练中,使用此类资源的实际优势是什么?

主要发现

  • JRC-Names 资源包含 205,000 个个人和组织名称,每个名称关联约 205,000 个拼写变体,总计约 410,000 个唯一名称条目。
  • 该数据集涵盖 20 多种不同的文字系统,支持多种语言,支持跨语言和跨书写系统的处理。
  • 该资源全面处理了词形变化,捕捉了不同语言中性、数、格等变化。
  • 该数据集源自真实世界的数据源——新闻和维基百科,确保了高度的相关性和语言多样性。
  • 提供每日更新,确保资源保持最新状态,适用于生产环境和研究应用。
  • 该资源免费提供,旨在支持多种自然语言处理任务,包括名称搜索、机器学习训练以及机器翻译增强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。