QUICK REVIEW

[论文解读] Neural Cross-Lingual Entity Linking

Avirup Sil, Gourab Kundu|arXiv (Cornell University)|Dec 5, 2017

Topic Modeling被引用 51

一句话总结

一个以英语为训练语言的神经 EL 模型学习细粒度的上下文相似性以区分指称，并使用多语言嵌入实现对西班牙语和中文 TAC 2015 数据集的零样本跨语言 EL，达到最新的结果。

ABSTRACT

A major challenge in Entity Linking (EL) is making effective use of contextual information to disambiguate mentions to Wikipedia that might refer to different entities in different contexts. The problem exacerbates with cross-lingual EL which involves linking mentions written in non-English documents to entries in the English Wikipedia: to compare textual clues across languages we need to compute similarity between textual fragments across languages. In this paper, we propose a neural EL model that trains fine-grained similarities and dissimilarities between the query and candidate document from multiple perspectives, combined with convolution and tensor networks. Further, we show that this English-trained system can be applied, in zero-shot learning, to other languages by making surprisingly effective use of multi-lingual embeddings. The proposed system has strong empirical evidence yielding state-of-the-art results in English as well as cross-lingual: Spanish and Chinese TAC 2015 datasets.

研究动机与目标

开发一个神经实体链接模型，学习查询上下文与候选维基百科页面之间的细粒度相似性。
在不重新训练的情况下，使用多语言嵌入实现零样本跨语言实体链接。
整合多种上下文表示（CNNs、LSTMs、NTN）和连贯性特征以提升消岐能力。
利用基于锚点-标题的快速候选检索，以及通过互语言链接实现的跨语言映射。
在英语（CoNLL/TAC）和跨语言 TAC 2015 西班牙语/中文数据集上进行评估，以实现 state-of-the-art 性能。

提出的方法

使用基于锚点-标题的索引，在英语和目标语言的维基百科中快速匹配候选，并通过互语言链接进行映射。
将词嵌入为多语言嵌入（MultiCCA、CCA、LS），并将维基百科页面表示为 IDF 加权的词嵴嵌入。
用对指称核心指代链中的句子以及候选页面第一段落来建模上下文的 CNN。
通过左/右上下文使用 LSTMs 和神经张量网络进行细粒度上下文建模，以捕捉细微的区分/相似性。
构建具有多种相似性度量的特征抽象层（句子上下文–Wiki 链接、句子上下文–Wiki 第一段、细粒度上下文–Wiki 链接）以及 LIEL 风格特征，并由前馈网络处理，作为二分类器训练。
使用正/负样本对进行训练并优化交叉熵损失；解码阶段使用 fast-match 候选和训练好的评分器来选择最佳链接或 NIL。

实验结果

研究问题

RQ1仅用英语训练的 EL 模型能否在无需重新训练的情况下在其他语言中执行跨语言链接（零样本）？
RQ2哪种多语言嵌入策略（MultiCCA、CCA、LS）最能支持西班牙语和中文的跨语言 EL？
RQ3词汇分解/组合（LDC）和多视角上下文匹配（MPCM）层是否提升 EL 性能？
RQ4提出的零样本跨语言 EL 方法与英语和跨语言 TAC 数据集上的最先进系统相比如何？

主要发现

该模型在英语 EL 基准（CoNLL 2003 和 TAC 2010）上达到 state-of-the-art 的结果。
在跨语言 EL 中，该方法在 TAC 2015 西班牙语和中文数据集上达到 state-of-the-art 性能。
在多语言嵌入中，基于 MultiCCA 的表示在跨语言 EL 上优于 LS 和 CCA。
将 LDC 和 MPCM 层结合带来相对于基线和更简单结构的可衡量的性能提升。
包含上下文 LSTMs、LDC 和 MPCM 的完整模型在单语和跨语言设置下报道的结果均为最佳。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。