[论文解读] Analogies Explained: Towards Understanding Word Embeddings
本论文提供一个关于改述和词变换的概率框架,解释了为什么词嵌入呈现线性类比,以及对 PMI 因子分解嵌入(如 W2V 与 GloVe)的线性关系给出严格证明。
Word embeddings generated by neural network methods such as word2vec (W2V) are well known to exhibit seemingly linear behaviour, e.g. the embeddings of analogy "woman is to queen as man is to king" approximately describe a parallelogram. This property is particularly intriguing since the embeddings are not trained to achieve it. Several explanations have been proposed, but each introduces assumptions that do not hold in practice. We derive a probabilistically grounded definition of paraphrasing that we re-interpret as word transformation, a mathematical description of "$w_x$ is to $w_y$". From these concepts we prove existence of linear relationships between W2V-type embeddings that underlie the analogical phenomenon, identifying explicit error terms.
研究动机与目标
- 激发并定义一个与单词上下文分布相关的概率化改述概念。
- 展示在 PMI 被因子分解时,改述如何导致嵌入之间的线性关系。
- 推导嵌入中的改述、词变换与类比之间的形式化联系。
- 提供 PMI 基于嵌入的线性类比的严格证明及其在 W2V 和 GloVe 中的体现。
提出的方法
- 通过使用 KL 散度比较诱导的上下文分布来定义一个单词的改述。
- 将改述关系表示为 PMI 向量之和,以及改述误差项和依赖误差项。
- 证明改述通过 C-dagger 投影在线性变换下将嵌入等价化。
- 扩展到单词集合,并将从单词改述推广到词转换。
- 推导在何种条件下,當 w_a 到 w_a* 与 w_b 到 w_b* 共享变换参数时会出现类比。
- 给出将 PMI 因子分解与线性类比关系联系起来的明确公式。
实验结果
研究问题
- RQ1在何种条件下,若干词嵌入的和可以改述成单个词嵌入?
- RQ2改述和词变换如何解释嵌入中的线性类比现象?
- RQ3改述误差、依赖误差与观测到的类比向量之间的精确数学关系是什么?
主要发现
- 一个改述的概率定义决定何时 PMI 得到的嵌入的线性组合与另一个嵌入匹配。
- 改述可以被解释为带有加性参数的词变换,解释类比结构。
- 存在对类比的词嵌入之间线性关系的严格证明,且误差项可解释。
- 结果通过投影关系适用于 PMI 因子分解以及 W2V 和 GloVe 风格的嵌入。
- 明确地说,类比的嵌入可以通过 w_b* ≈ w_a* − w_a + w_b 来表征,外加一个依赖于改述和依赖性质的误差项。
- 该框架澄清了在线性类比结果何时为精确,以及何时可能因为误差相消而产生假阳性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。