Skip to main content
QUICK REVIEW

[論文レビュー] MultiCoNER: A Large-scale Multilingual dataset for Complex Named Entity Recognition

Shervin Malmasi, Anjie Fang|arXiv (Cornell University)|Aug 30, 2022
Topic Modeling被引用数 82
ひとこと要約

tldr: MultiCoNER は 11 言語、3 分野、コード混在サブセットを横断する大規模な多言語 NER データセットを導入し、堅牢な NER を評価する。データセットの難しさを示すベースラインおよびガゼットリィア強化モデルを示す。

ABSTRACT

We present MultiCoNER, a large multilingual dataset for Named Entity Recognition that covers 3 domains (Wiki sentences, questions, and search queries) across 11 languages, as well as multilingual and code-mixing subsets. This dataset is designed to represent contemporary challenges in NER, including low-context scenarios (short and uncased text), syntactically complex entities like movie titles, and long-tail entity distributions. The 26M token dataset is compiled from public resources using techniques such as heuristic-based sentence sampling, template extraction and slotting, and machine translation. We applied two NER models on our dataset: a baseline XLM-RoBERTa model, and a state-of-the-art GEMNET model that leverages gazetteers. The baseline achieves moderate performance (macro-F1=54%), highlighting the difficulty of our data. GEMNET, which uses gazetteers, improvement significantly (average improvement of macro-F1=+30%). MultiCoNER poses challenges even for large pre-trained language models, and we believe that it can help further research in building robust NER systems. MultiCoNER is publicly available at https://registry.opendata.aws/multiconer/ and we hope that this resource will help advance research in various aspects of NER.

研究の動機と目的

  • 実際的な NER の課題に対処すること(既存のベンチマークでは十分に表現されていない低文脈、構文的に複雑なエンティティ、長尾分布、多言語性、コード混在性)。
  • クロスドメインおよびクロスリンガル NER モデルを評価するための大規模で多様なデータセットを提供する。
  • 外部知識ソースの利点を定量化するために、ベースラインおよびガゼットリィア強化モデルを評価する。
  • 将来のドメイン適応と多言語 NER に関する研究を促進するために、公開可能なデータを提供する。

提案手法

  • 11 言語および 3 分野(Wiki の文章、質問、検索クエリ)にまたがる 26M-token の NER データセットを構築する。
  • Wikidata/Wikipedia のガゼットリィアを活用してエンティティを注釈付けし、6 クラス分類(PER, LOC, CORP, GRP, PROD, CW)にマッピングする。
  • 経験的サンプリング、テンプレート抽出/スロット化、機械翻訳を用いて低文脈・短文・コード混在データを生成する。
  • モノリンガル、マルチリンガル、およびコード混在のサブセットを predefined train/dev/test splits で作成し、一般化を評価する。
  • ベースライン XLM-RoBERTa のファインチューニングを、ガゼットリィア強化モデルである GEMNET と比較し、macro/micro F1 および言及検出で評価する。

実験結果

リサーチクエスチョン

  • RQ1低文脈・短文設定が多様な言語で NER パフォーマンスをどのように低下させるか?
  • RQ2多言語・コード混在データにおける外部ガゼットリィアの NER パフォーマンスへの影響はどの程度か?
  • RQ3大規模でドメイン多様なデータセットは、クロスドメイン・クロスリンガル NER モデルの評価を改善できるか?
  • RQ4多言語設定での複雑なエンティティタイプ(例:Creative Works)や長尾分布にはモデルはどう対応するか?
  • RQ5ベースラインとガゼットリィア強化モデルの一般化能力とドメイン外適応能力はどう違うか?

主な発見

  • ベースライン XLM-RoBERTa はタスク間で平均 macro-F1 が約 54% の中程度のパフォーマンスを示す。
  • ガゼットリィアを備えた GEMNET は、ベースラインより約 +30% の macro-F1 を平均して大幅に改善。
  • GEMNET は特にリソースの少ない言語(例:トルコ語、韓国語)で大きな利益を示す。
  • データセットは、見たことのないエンティティやドメイン外の長尾分布に対して大規模 PLM の課題を強く示す。
  • コード混在および多言語サブセットは、言語間転移と言語混合への頑健性を評価するのに有用。
  • 外部知識ソースを組み込むことは、多言語・低文脈設定における堅牢な NER への重要な要因である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。