QUICK REVIEW

[论文解读] TransG : A Generative Mixture Model for Knowledge Graph Embedding

Han Xiao, Minlie Huang|arXiv (Cornell University)|Sep 18, 2015

Advanced Graph Neural Networks参考文献 23被引用 81

一句话总结

TransG 提出了一种用于知识图嵌入的生成式贝叶斯非参数混合模型，通过为每个关系学习多个关系特定的组件来解决多义关系语义问题。通过使用中国餐馆过程（Chinese Restaurant Process）动态发现潜在语义，TransG 实现了最先进性能，在 WN11 上提升 1.7%，在 FB13 上提升 5.8%，优于 TransR。

ABSTRACT

Recently, knowledge graph embedding, which projects symbolic entities and relations into continuous vector space, has become a new, hot topic in artificial intelligence. This paper addresses a new issue of multiple relation semantics that a relation may have multiple meanings revealed by the entity pairs associated with the corresponding triples, and proposes a novel Gaussian mixture model for embedding, TransG. The new model can discover latent semantics for a relation and leverage a mixture of relation component vectors for embedding a fact triple. To the best of our knowledge, this is the first generative model for knowledge graph embedding, which is able to deal with multiple relation semantics. Extensive experiments show that the proposed model achieves substantial improvements against the state-of-the-art baselines.

研究动机与目标

正式识别并解决知识图中多义关系语义的问题，即单个关系在不同实体对之间可能表达不同含义。
开发一种生成模型，能够自动发现并表示这些潜在语义组件，而无需预先知道组件数量。
通过将关系建模为关系特定向量的混合体而非单一固定向量，改进知识图嵌入。
证明建模多重语义可显著提升链接预测和三元组分类任务的性能。

提出的方法

采用基于中国餐馆过程（CRP）的贝叶斯非参数无限混合模型，允许每个关系拥有无上限的语义组件数。
使用关系特定组件向量的混合体来建模每个三元组 (h, r, t)，其中嵌入满足 h_r + r_i ≈ t_r（对应于组件 i）。
使用随机梯度上升（SGA）高效优化混合权重 π 和方差 σ，替代计算成本较高的似然计数方法。
将方差 σ 固定为常数以保证数值稳定性，同时通过随机向量初始化新聚类中心，而非使用真实差异 (t - h)，以提升泛化能力。
在训练过程中采用伯努利采样策略进行负采样，以提升效率和收敛性。
引入分层聚类机制，将语义相似的实体对归入同一组件，实现语义消歧。

实验结果

研究问题

RQ1生成模型能否有效捕捉知识图中单个关系的多重潜在语义？
RQ2与单向量模型相比，将关系建模为组件混合体是否能提升知识图嵌入性能？
RQ3关系通常具有多少个语义组件？这些组件是否对应可解释的语义？
RQ4模型能否自动发现正确的语义组件数量，而无需人工指定？
RQ5捕捉多重语义在多大程度上能提升链接预测和三元组分类的准确率？

主要发现

TransG 在 WN11 数据集上达到 87.4% 的准确率，在 FB13 上达到 87.3%，优于所有基线模型，包括 TransR（85.9% 和 82.5%）以及 TransG-Hierarchical（85.4% 和 85.3%）。
与 TransR 相比，模型在 WN11 上提升 1.7 个百分点，在 FB13 上提升 5.8 个百分点，证明了建模多重语义的优势。
具有更多语义组件的关系（如“Profession”和“Type Of”）表现出更大的性能增益，而仅有一个组件的关系（如“Similar”）则改善甚微。
每种关系的语义组件数量不同：WN11 平均为 2.63 个组件，FB13 为 4.53 个，除“Also See”、“Synset Usage”、“Gender”外，大多数关系均具有多个组件。
可视化结果证实，不同组件对应不同的语义含义，例如“HasPart.1”表示组成关系，“HasPart.2”表示位置关系。
由于优化和学习率调度的改进，模型在最终版本中收敛更快，仅需训练 2,000 个周期，而非原先的 10,000 个周期。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。