Skip to main content
QUICK REVIEW

[論文レビュー] Neural Cross-Lingual Entity Linking

Avirup Sil, Gourab Kundu|arXiv (Cornell University)|Dec 5, 2017
Topic Modeling被引用数 51
ひとこと要約

英語で訓練されたニューラルELモデルが語の同定を分解する微細な文脈類似性を学習し、多言語埋め込みを用いてスペイン語および中国語のTAC 2015データセットに対するゼロショットのクロスリンガルELを可能にし、最先端の結果を達成する。

ABSTRACT

A major challenge in Entity Linking (EL) is making effective use of contextual information to disambiguate mentions to Wikipedia that might refer to different entities in different contexts. The problem exacerbates with cross-lingual EL which involves linking mentions written in non-English documents to entries in the English Wikipedia: to compare textual clues across languages we need to compute similarity between textual fragments across languages. In this paper, we propose a neural EL model that trains fine-grained similarities and dissimilarities between the query and candidate document from multiple perspectives, combined with convolution and tensor networks. Further, we show that this English-trained system can be applied, in zero-shot learning, to other languages by making surprisingly effective use of multi-lingual embeddings. The proposed system has strong empirical evidence yielding state-of-the-art results in English as well as cross-lingual: Spanish and Chinese TAC 2015 datasets.

研究の動機と目的

  • クエリ文脈と候補のWikipediaページとの間で微細な類似性を学習するニューラルELモデルを開発する。
  • 再訓練なしで多言語埋め込みを用いたゼロショットのクロスリンガルELを実現する。
  • 文脈の複数の表現(CNNs、LSTMs、NTN)と整合性特徴を統合して曖昧性解消を改善する。
  • アンカー-タイトルベースの高速候補検索と言語間リンクによるクロス言語マッピングを活用する。
  • 英語(CoNLL/TAC)およびクロスリンガルのTAC 2015スペイン語/中国語データセットで評価し、最先端の性能を確立する。

提案手法

  • 英語および対象言語のWikipediaから構築されたアンカータイトル索引を用いた高速なマッチ候補生成を、言語間リンクでマッピングする。
  • 単語を多言語埋め込み(MultiCCA、CCA、LS)で埋め込み、WikipediaページをIDF重み付き単語埋め込みとして表現する。
  • 言及の照合連鎖の文と候補ページの最初の段落に対する文脈をCNNでモデル化する。
  • LSTMsとニューラルテンソルネットワークを用いた左/右の文脈を含む細粒度の文脈モデリングを適用して、ニュアンスのあるDis/Similaritiesを捉える。
  • 複数の類似度尺度(Sentence context–Wiki link、Sentence context–Wiki first paragraph、Fine-grained context–Wiki link)とLIEL風の特徴を組み込んだ特徴抽象化レイヤを構築し、フィードフォワードネットワークで処理して2クラス分類器として訓練する。
  • 正例/負例ペアで訓練しクロスエントロピー損失を最適化する;デコードは高速マッチ候補と学習済みスコアラーを用いて最適なリンクまたはNILを選択する。

実験結果

リサーチクエスチョン

  • RQ1英語のみで訓練されたELモデルが再訓練なしで他言語へクロスリンガルリンクを行えるか(ゼロショット)?
  • RQ2多言語埋め込み戦略(MultiCCA、CCA、LS)のうち、スペイン語と中国語のクロスリンガルELを最も効果的に支援するのはどれか?
  • RQ3Lexical Decomposition/Composition(LDC)とMulti-Perspective Context Matching(MPCM)レイヤーはEL性能を向上させるか?
  • RQ4提案されたゼロショットクロスリンガルELアプローチは、英語およびクロスリンガルTACデータセットの最先端システムと比較してどうか?

主な発見

  • 本モデルは英語ELベンチマーク(CoNLL 2003およびTAC 2010)で最先端の結果を達成した。
  • クロスリンガルELでは、TAC 2015スペイン語および中国語データセットで最先端の性能を達成した。
  • 多言語埋め込みの中で、MultiCCAベースの表現がクロスリンガルELにおいてLSおよびCCAを上回る。
  • LDCおよびMPCMレイヤを組み込むことで、ベースラインおよびより簡素なアーキテクチャに対して測定可能な性能向上をもたらす。
  • 文脈LSTMs、LDC、MPCMを組み込んだ完全なモデルは、モノリンガルおよびクロスリンガル設定のいずれにおいても従来の研究より最良の報告結果をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。