[论文解读] Poincaré GloVe: Hyperbolic Word Embeddings
作者将单词嵌入到一组乘积的双曲空间的笛卡尔乘积中,与高斯Fisher几何相连接,并将Glove进行改造以学习无监督的双曲词嵌入,从而在相似性、类比和上位词任务上有所提升。
Words are not created equal. In fact, they form an aristocratic graph with a latent hierarchical structure that the next generation of unsupervised learned word embeddings should reveal. In this paper, justified by the notion of delta-hyperbolicity or tree-likeliness of a space, we propose to embed words in a Cartesian product of hyperbolic spaces which we theoretically connect to the Gaussian word embeddings and their Fisher geometry. This connection allows us to introduce a novel principled hypernymy score for word embeddings. Moreover, we adapt the well-known Glove algorithm to learn unsupervised word embeddings in this type of Riemannian manifolds. We further explain how to solve the analogy task using the Riemannian parallel transport that generalizes vector arithmetics to this new type of geometry. Empirically, based on extensive experiments, we prove that our embeddings, trained unsupervised, are the first to simultaneously outperform strong and popular baselines on the tasks of similarity, analogy and hypernymy detection. In particular, for word hypernymy, we obtain new state-of-the-art on fully unsupervised WBLESS classification accuracy.
研究动机与目标
- 激励在无监督嵌入中揭示层次化和非对称的词语关系的需求。
- 提出将词嵌入到一个双曲空间的笛卡尔乘积中,以体现树状结构。
- 建立双曲嵌入与高斯Fisher几何之间的联系,以推导出一个有原理的上位词分数。
- 将 Glove 的训练框架适配到双曲流形,并通过黎曼并行传输实现类比。
提出的方法
- 将单词嵌入到一组双曲空间的乘积中(Poincaré 球及相关模型),并在损失中使用可微距离 d。
- 用 J = sum_{i,j} f(X_{ij})(-h(d(w_i, 兹t_j)) + b_i + 兹t_j - log X_{ij})^2 替代欧几里得 Glove 损失,其中 h 是所选函数(例如 h(x)=x^2 或 h(x)=cosh^2(x))。
- 利用高斯的 Fisher 几何将双曲嵌入映射到对角高斯嵌入,从而实现一个有原理的 is-a 上位词分数。
- 使用黎曼优化(Radagrad)并利用平行传输在双曲空间中计算类比。
- 在推导上位词分数之前应用等距变换以对齐通用词集合和特定词集合。
- 通过在受限词汇表上预训练的初始化技巧来改善全词汇表结果。
实验结果
研究问题
- RQ1在无监督设定下,双曲几何是否比欧几里得空间更好地捕捉词语的潜在层次结构?
- RQ2双曲 Glove 嵌入是否能在词相似性、类比和上位词基准上同时提升性能?
- RQ3如何利用双曲嵌入与高斯 Fisher 几何之间的联系来定义一个有原理的、内在的上位词分数?
- RQ4模型维数和初始化对无监督双曲词嵌入有何影响?
主要发现
- 100D 和 50x2D 双曲模型通常在相似性任务上优于欧几里得 Glove 基线。
- 一个 50x2D 模型,使用 h(x)=x^2,在无监督的 WBLESS 的上位词准确性方面达到最先进水平,并在带弱监督的 HyperLex 上取得有竞争力的结果。
- 100D 双曲嵌入通常在相似性和类比基准上产生最佳整体性能。
- 通过 Fisher 距离在双曲嵌入和高斯嵌入之间存在一个有原理的映射,从而实现可解释的上位词分数。
- 初始化(对较小词表的预训练)在各任务上提升了性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。