[论文解读] Wikipedia2Vec: An Efficient Toolkit for Learning and Visualizing the Embeddings of Words and Entities from Wikipedia
Wikipedia2Vec 是一个 Python 开源工具,能够从维基百科共同学习词向量和实体向量,在实体相关性方面达到最先进的结果,并在标准词嵌入基准上具有竞争力,同时提供一个交互式网页演示和预训练的多语言嵌入。
The embeddings of entities in a large knowledge base (e.g., Wikipedia) are highly beneficial for solving various natural language tasks that involve real world knowledge. In this paper, we present Wikipedia2Vec, a Python-based open-source tool for learning the embeddings of words and entities from Wikipedia. The proposed tool enables users to learn the embeddings efficiently by issuing a single command with a Wikipedia dump file as an argument. We also introduce a web-based demonstration of our tool that allows users to visualize and explore the learned embeddings. In our experiments, our tool achieved a state-of-the-art result on the KORE entity relatedness dataset, and competitive results on various standard benchmark datasets. Furthermore, our tool has been used as a key component in various recent studies. We publicize the source code, demonstration, and the pretrained embeddings for 12 languages at https://wikipedia2vec.github.io.
研究动机与目标
- 提供一种可扩展的方法,从维基百科学习词嵌入和实体嵌入的联合表示。
- 通过结合词、锚文本上下文和链接图信号来提升嵌入质量。
- 提供快速、易于使用的训练工作流,单命令即可运行。
- 提供可视化和交互式工具,用于探索所学的嵌入。
- 发布预训练的多语言嵌入和开源代码,供社区使用。
提出的方法
- 联合优化三个基于 skip-gram 的子模型:基于词的 skip-gram、锚文本上下文和链接图模型。
- 使用两个嵌入矩阵 V 和 U,在一个共享的 d 维向量空间中表示词语和实体。
- 使用负采样来近似目标中的 softmax,并通过随机梯度下降进行训练。
- 使用提及-实体字典自动生成超链接,以丰富锚文本上下文。
- 高效的数据结构:链接图使用 CSR 稀疏矩阵,提及检测使用 Aho–Corasick。
- 提供基于网页的演示,使用降维方法(t-SNE、UMAP、PCA)可视化嵌入。
实验结果
研究问题
- RQ1从维基百科联合学习的词与实体嵌入是否在实体相关性和词嵌入基准上超越基线?
- RQ2与仅词模型相比,整合锚文本上下文和链接图信号如何影响嵌入质量?
- RQ3训练过程是否足够高效,能够与 gensim 和 fastText 等成熟的词嵌工具竞争?
- RQ4在实际中,自动生成的超链接是否有助于提升嵌入质量?
- RQ5是否能够通过交互式网页演示有效地可视化和探索这些嵌入?
主要发现
| 名称 | 分数 |
|---|---|
| Ours | 0.71 |
| Ours (w/o link graph model) | 0.61 |
| Ours (w/o hyperlink generation) | 0.69 |
| RDF2Vec Ristoski et al. ( 2018 ) | 0.69 |
| Wiki2vec | 0.52 |
- 在 KORE 实体相关性数据集上取得了最先进的结果(表 1)。
- 在实体嵌入方面超越 RDF2Vec 和 Wiki2vec 基线,并在词嵌入方面表现具有竞争力(表 2)。
- 链接图和锚文本上下文信号提升 KORE 的表现,而超链接生成在词任务中带来的是参差不齐或有限的收益。
- 仅基于词的 skip-gram 比 gensim 和 fastText 更快,整模型训练时间与基线相当。
- 提供了 12 种语言的预训练嵌入,并发布了开源代码与演示工具。
- 网页演示支持对词语和实体进行 2D/3D 可视化和相似性查询。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。