Skip to main content
QUICK REVIEW

[论文解读] Distributed Representations of Words and Phrases and their Compositionality

Tomáš Mikolov, Ilya Sutskever|arXiv (Cornell University)|Oct 16, 2013
Natural Language Processing Techniques参考文献 19被引用 18,060
一句话总结

本文在 Skip-gram 模型中加入子采样、负采样和基于短语的方法的扩展,展示了高效学习高质量单词和短语向量及其线性成分性的能力。

ABSTRACT

The recently introduced continuous Skip-gram model is an efficient method for learning high-quality distributed vector representations that capture a large number of precise syntactic and semantic word relationships. In this paper we present several extensions that improve both the quality of the vectors and the training speed. By subsampling of the frequent words we obtain significant speedup and also learn more regular word representations. We also describe a simple alternative to the hierarchical softmax called negative sampling. An inherent limitation of word representations is their indifference to word order and their inability to represent idiomatic phrases. For example, the meanings of "Canada" and "Air" cannot be easily combined to obtain "Air Canada". Motivated by this example, we present a simple method for finding phrases in text, and show that learning good vector representations for millions of phrases is possible.

研究动机与目标

  • 激励学习能够捕获句法和语义关系的分布式词表示。
  • 通过对高频词进行子采样来提升训练速度与向量质量。
  • 引入一个简单的负采样替代层次 softmax,以提高训练效率。
  • 将词向量扩展到短语,以捕捉非组合意义。
  • 展示学习得到的向量具备线性成分性和可加性特性。

提出的方法

  • 使用 Skip-gram 模型通过预测周围词来学习词向量。
  • 用层次 softmax 或负采样替换全 softmax 以减少计算量。
  • 对高频词进行子采样以加速训练并改善罕见词的表示。
  • 通过将常见的双字词作为单一标记来识别并训练短语向量。
  • 使用包含短语的类比推理任务进行评估,并分析可加成成分性。

实验结果

研究问题

  • RQ1子采样和负采样是否能在 Skip-gram 模型中提高训练速度和向量质量?
  • RQ2基于短语的表示是否能够捕获非组合意义并支持可靠的类比推理?
  • RQ3词向量是否表现出线性成分性,能够得到有意义的向量相加结果?
  • RQ4涉及短语的类比任务中,短语向量与词向量相比有何差异?

主要发现

  • 负采样在词类比任务中的表现优于层次 softmax,在某些设定下甚至可超越 NCE。
  • 对高频词进行子采样可获得2x–10x的加速,并提升罕见词的准确性。
  • 在大规模数据(多达十亿词级别)的短语化训练下,产生了有意义的短语向量,在短语类比任务中达到72%的准确率。
  • 词向量与短语向量呈现线性类比和可加性特性,使得如 Russia + river ≈ Volga River 以及 Volga 式短语等有意义的向量运算成为可能。
  • 使用带有短语训练和层次 softmax 的 30B-word 语料库,与较小模型相比,在短语类比任务上表现强劲。
  • 短语表示在使用适当设置进行训练时,能提升不常见术语的最近邻质量。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。