Skip to main content
QUICK REVIEW

[論文レビュー] JRC-Names: A freely available, highly multilingual named entity resource

Ralf Steinberger, Bruno Pouliquen|arXiv (Cornell University)|Sep 24, 2013
Topic Modeling参考文献 8被引用数 55
ひとこと要約

本論文では、205,000件の人物および組織名と、それとほぼ同等の数の表記変種を含み、20種類以上の scripts と多数の言語をカバーする、無料で利用可能な多言語名前エンティティリソース「JRC-Names」を紹介する。7年間にわたる大規模なニュース分析および Wikipedia マイニングを経て構築されたこのリソースは、名前検索、機械学習の初期化、機械翻訳の改善といった応用を支援し、毎日更新され、語形変化に対しても堅牢に対応している。

ABSTRACT

This paper describes a new, freely available, highly multilingual named entity resource for person and organisation names that has been compiled over seven years of large-scale multilingual news analysis combined with Wikipedia mining, resulting in 205,000 per-son and organisation names plus about the same number of spelling variants written in over 20 different scripts and in many more languages. This resource, produced as part of the Europe Media Monitor activity (EMM, http://emm.newsbrief.eu/overview.html), can be used for a number of purposes. These include improving name search in databases or on the internet, seeding machine learning systems to learn named entity recognition rules, improve machine translation results, and more. We describe here how this resource was created; we give statistics on its current size; we address the issue of morphological inflection; and we give details regarding its functionality. Updates to this resource will be made available daily.

研究の動機と目的

  • 人物および組織名のための、大規模かつ自由に利用可能な多言語名前エンティティリソースの構築を目的とする。
  • 多様な言語および scripts の間で生じる名前の表記変動および語形変化の課題に対処することを目的とする。
  • 名前検索の改善、機械学習のトレーニング、機械翻訳の向上といった実用的 NLP 応用を支援することを目的とする。
  • ニュースや Wikipedia といった実世界のデータソースから得られる継続的更新が可能なリソースを提供することを目的とする。
  • 多言語環境におけるクロスリンガルおよびクロススクリプト名前エンティティ処理を可能とすることを目的とする。

提案手法

  • リソースは、ヨーロッパメディアモニタリング(EMM)システムを用いて収集された多言語ニュースデータの大規模分析によって構築された。
  • Wikipedia のマイニングを活用して、複数の言語およびスクリプトで人物および組織名を抽出・検証した。
  • 名前エンティティは正規化され、その標準形にリンクされ、表記変種が体系的に収集・保存された。
  • 語形変化の対処のため、異なる格変化および語形変化形態を含めた。
  • 7年間にわたる継続的なデータ収集およびメンテナンスを通じて、広範な言語的カバレッジを確保した。
  • 生産および研究用途に適した最新性と関連性を維持するため、毎日更新が行われている。

実験結果

リサーチクエスチョン

  • RQ1ニュースや Wikipedia といった多様なデータソースから、どのようにして大規模かつ多言語名前エンティティリソースを体系的に構築できるか?
  • RQ2語形変動およびスクリプトの多様性が、名前エンティティ認識および正規化に与える影響は何か?
  • RQ3自由に利用可能で継続的に更新される名前エンティティリソースは、機械翻訳や情報検索といった下流 NLP タスクにどのように寄与するか?
  • RQ4複数のスクリプトと言語をサポートする多言語名前エンティティリソースの規模と言語的カバレッジはどの程度か?
  • RQ5このようなリソースを用いることで、名前エンティティ認識における機械学習システムの初期化にどのような実用的利点が得られるか?

主な発見

  • JRC-Names リソースには、205,000件の人物および組織名が含まれており、それぞれが約 205,000 個の表記変種と関連しており、合計で約 410,000 種類の固有名エントリが存在する。
  • 20種類以上の書記体系をカバーしており、クロスリンガルおよびクロススクリプト処理を可能にしている。
  • 語形変化の包括的対処がなされており、言語ごとの格や性の変化を捉え込んでいる。
  • ニュースおよび Wikipedia といった実世界のデータソースから構築されており、高い関連性と言語的多様性を確保している。
  • 毎日更新が行われており、生産および研究用途に適した最新性と関連性を維持している。
  • リソースは無料で利用可能であり、名前検索、機械学習のトレーニング、機械翻訳の強化といった多様な NLP タスクを支援するように設計されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。