Skip to main content
QUICK REVIEW

[论文解读] Understanding Composition of Word Embeddings via Tensor Decomposition.

Abraham Frandsen, Rong Ge|arXiv (Cornell University)|Jan 1, 2019
Tensor decomposition and applications被引用 4
一句话总结

本文提出了一种基于张量分解的词嵌入组合生成模型,表明词组三元组的PMI相关性可形成一个低秩Tucker张量。该方法通过利用核心张量改进了短语向量的组合,实验验证了模型的假设和有效性。

ABSTRACT

Word embedding is a powerful tool in natural language processing. In this paper we consider the problem of word embedding composition \--- given vector representations of two words, compute a vector for the entire phrase. We give a generative model that can capture specific syntactic relations between words. Under our model, we prove that the correlations between three words (measured by their PMI) form a tensor that has an approximate low rank Tucker decomposition. The result of the Tucker decomposition gives the word embeddings as well as a core tensor, which can be used to produce better compositions of the word embeddings. We also complement our theoretical results with experiments that verify our assumptions, and demonstrate the effectiveness of the new composition method.

研究动机与目标

  • 通过基于句法关系的生成方法建模词组的组合语义。
  • 证明词组三元组的点互信息(PMI)可形成近似低秩结构的张量。
  • 利用Tucker分解的核心张量开发一种改进的词嵌入组合方法。
  • 通过真实世界数据的实证实验验证模型的理论假设。

提出的方法

  • 使用生成框架建模词嵌入组合,以捕捉词语之间的句法关系。
  • 将词组三元组的PMI表示为三维张量,以捕捉高阶相关性。
  • 对PMI张量应用Tucker分解,提取低秩分量和核心张量。
  • 利用核心张量从单个词嵌入生成短语的组合向量。
  • 在低秩结构假设下优化分解,以保持语义组合性。
  • 通过在词组合任务上的实证评估验证模型的假设和性能。

实验结果

研究问题

  • RQ1词组三元组之间的PMI相关性能否被建模为低秩张量?
  • RQ2PMI张量的Tucker分解是否能产生对短语组合有意义的核心张量?
  • RQ3与基线方法相比,所提出的方法能否改善词嵌入组合?
  • RQ4关于低秩结构的理论假设在真实NLP数据中是否具有实证有效性?

主要发现

  • 词组三元组的PMI张量表现出近似低秩结构,支持使用Tucker分解。
  • Tucker分解得到的核心张量捕捉了可增强短语向量表示的组合模式。
  • 所提出的组合方法在捕捉短语语义关系方面优于基线方法。
  • 实证结果证实了真实世界词嵌入数据中低秩结构的理论假设。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。