Skip to main content
QUICK REVIEW

[论文解读] Spherical Text Embedding

Meng Yu, Jiaxin Huang|arXiv (Cornell University)|Nov 4, 2019
Topic Modeling被引用 52
一句话总结

本工作直接在单位球面上学习词嵌入和段落嵌入,使用两步生成模型和黎曼优化,在词语相似度和文档聚类方面达到最新水平。

ABSTRACT

Unsupervised text embedding has shown great power in a wide range of NLP tasks. While text embeddings are typically learned in the Euclidean space, directional similarity is often more effective in tasks such as word similarity and document clustering, which creates a gap between the training stage and usage stage of text embedding. To close this gap, we propose a spherical generative model based on which unsupervised word and paragraph embeddings are jointly learned. To learn text embeddings in the spherical space, we develop an efficient optimization algorithm with convergence guarantee based on Riemannian optimization. Our model enjoys high efficiency and achieves state-of-the-art performances on various text embedding tasks including word similarity and document clustering.

研究动机与目标

  • 通过在球面空间中学习来解决文本嵌入的欧几里得训练与球面使用之间的不匹配。
  • 在球面上通过两步生成过程联合学习词嵌入和段落嵌入。
  • 开发具有收敛性保证的可扩展的球面嵌入优化算法。
  • 在词相似度、文档聚类和文档分类任务中证明最先进的性能。

提出的方法

  • 提出在单位球面上的两步生成模型:从段落语义生成中心词,然后在中心词条件下生成周围的上下文词。
  • 在球面上用 von Mises–Fisher 分布建模先验,以捕捉中心-上下文和段落-词语之间的关系。
  • 使用带负采样的最大边际损失来优化 p(v,u|d) 相对于负样本。
  • 将学习表述为球面上的约束优化,并应用黎曼 SGD,对更新进行切向投影和指数映射(或重投影变体)。
  • 将余弦相似度作为球面上的方向性度量,并推导保持单位范数约束的更新规则。

实验结果

研究问题

  • RQ1是否可以直接在球面(方向性)空间中学习文本嵌入,以缩小训练与使用之间的差距?
  • RQ2用球面生成模型学习的词与段落(文档)联合嵌入在相似性和聚类任务上是否优于基于欧几里得的嵌入?
  • RQ3是否存在适合在大规模语料上训练球面嵌入的可扩展、收敛的优化过程?
  • RQ4在球面空间利用词-词和词-段落共现是否能提升聚类和分类等下游任务?

主要发现

  • JoSE(联合球面嵌入)在 WordSim353、MEN 和 SimLex999 上实现的词相似度分数高于欧几里得基线。
  • JoSE 在 20 Newsgroups 数据集上的文档聚类性能优于若干基线,在多项指标上表现更好。
  • 使用 k-NN 分类的 JoSE 在 20 Newsgroups 和 Movie Review 数据集上实现最佳的 Macro-F1 和 Micro-F1。
  • 与若干基线相比,JoSE 在维基百科规模语料上的每次迭代训练效率表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。