[論文レビュー] POLYGLOT-NER: Massive Multilingual Named Entity Recognition
本稿では、人間によるアノテーションデータセットや言語固有のリソースを一切使用せず、Wikipediaのリンク構造とFreebaseの属性情報のみを用いて40の主要言語向けに多言語名前付きエンティティ認識(NER)システムを構築する、言語に依存しないアプローチであるPOLYGLOT-NERを提案する。ニューラル単語埋め込み、自動データ合成、言語に依存しない前処理(過剰サンプリングと表層形一致)を活用することで、標準ベンチマークで競争力のある性能を達成し、統計的機械翻訳を用いた遠隔監視による低リソース言語の評価を可能にする。
The increasing diversity of languages used on the web introduces a new level of complexity to Information Retrieval (IR) systems. We can no longer assume that textual content is written in one language or even the same language family. In this paper, we demonstrate how to build massive multilingual annotators with minimal human expertise and intervention. We describe a system that builds Named Entity Recognition (NER) annotators for 40 major languages using Wikipedia and Freebase. Our approach does not require NER human annotated datasets or language specific resources like treebanks, parallel corpora, and orthographic rules. The novelty of approach lies therein - using only language agnostic techniques, while achieving competitive performance. Our method learns distributed word representations (word embeddings) which encode semantic and syntactic features of words in each language. Then, we automatically generate datasets from Wikipedia link structure and Freebase attributes. Finally, we apply two preprocessing stages (oversampling and exact surface form matching) which do not require any linguistic expertise. Our evaluation is two fold: First, we demonstrate the system performance on human annotated datasets. Second, for languages where no gold-standard benchmarks are available, we propose a new method, distant evaluation, based on statistical machine translation.
研究の動機と目的
- 英語を越える多言語NERシステムの不足を解消し、スケーラブルで低リソース言語向けのサポートを実現すること。
- 低リソース言語におけるNERに人間によるアノテーションデータセットや言語固有の言語学的リソースを必要としないバリアンスを克服すること。
- 言語に依存しない技術のみを用いて、自動的に学習データを生成し、NERモデルを訓練できるシステムを開発すること。
- ゴールスタンダードベンチマークが存在しない言語におけるNER性能の信頼性のある評価を可能にすること。
- 多様な言語、特にセルビア語、インドネシア語、タイ語のような低リソース言語を含む、多言語環境における一貫した性能を示すこと。
提案手法
- 40言語にわたる意味的・構文的特徴を統合的に表現できる言語に依存しないニューラル単語埋め込みを学習する。
- Freebaseで特定されたエンティティページにリンクするアンカーテキストを特定することで、Wikipediaから候補となる名前付きエンティティの表記を抽出する。
- 2段階の言語に依存しない前処理を適用する:クラス不均衡の是正のための過剰サンプリングと、正例カバレッジの向上のための正確な表層形一致。
- Wikipediaの内部リンク構造とFreebaseの属性メタデータを用いて自動的に学習データセットを構築し、言語固有のツールに依存しない。
- 統計的機械翻訳(SMT)を用いて遠隔評価を実施し、ゴールスタンダードアノテーションを対象言語に翻訳し、一致精度を測定する。
- 標準的なNER評価指標(EMおよびEA)を用いて、自動的に構築されたデータセット上で系列ラベル付けモデル(例:CRFやBiLSTM-CRF)を訓練および評価する。
実験結果
リサーチクエスチョン
- RQ1人間によるアノテーションデータセットや言語固有の言語学的リソースに依存せずに多言語NERシステムを構築できるか?
- RQ2言語に依存しないデータ拡張技術(例:過剰サンプリングや表層形一致)は、低リソース言語におけるNER性能向上にどの程度有効か?
- RQ3統計的機械翻訳を用いて、ゴールスタンダードベンチマークが存在しない言語の信頼性の高い評価セットを生成できるか、その範囲はどの程度か?
- RQ4Wikipediaの規模とFreebaseの属性カバレッジは、異なる言語におけるNER性能とどの程度相関するか?
- RQ5多言語環境下で、エンティティタイプ(PERSON、LOCATION、ORGANIZATION)ごとに性能に差異が生じるか?
主な発見
- 人間によるアノテーションベンチマークにおいて競争力のある性能を達成し、特に英語、スペイン語、ドイツ語においてOpenNLP や NLTK よりも優れた性能を示す。
- 言語に依存しない前処理段階(過剰サンプリングと表層形一致)により、ゴールスタンダードデータセットにおけるF1スコアが最低45%向上し、Wikipediaのリンクヒューリスティクスに起因するノイズが低減される。
- より大きなWikipedia版(例:英語、フランス語、スペイン語)は、より優れた単語埋め込みと学習データの多様性をもたらし、EMスコアで偽陰性が0.6減少する。
- エンティティタイプごとの性能に差が生じ、PERSON認識が最も正確で、次にLOCATION、ORIGINIZATIONの順に精度が低いが、Freebaseの属性分布の偏りが予測にバイアスをもたらすことがある(例:ベトナム語ではLOCATIONが過剰にアノテートされる)。
- 統計的機械翻訳を用いた遠隔評価は、システム性能の信頼できる代理指標を提供するが、翻訳品質やエンティティの保存状態が指標の正確性に影響を及ぼす可能性があり、特に韓国語、ギリシャ語、タイ語のような言語では顕著である。
- 本システムは、セルビア語、インドネシア語、タイ語、マレー語、ヘブライ語を含む40言語すべてで一貫した性能を示し、公開用のオープンソースモデルをリリースした。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。