Skip to main content
QUICK REVIEW

[论文解读] Notes on Noise Contrastive Estimation and Negative Sampling

Chris Dyer|arXiv (Cornell University)|Oct 30, 2014
Speech and Audio Processing参考文献 7被引用 63
一句话总结

本文澄清了噪声对比估计(NCE)与负采样之间的理论差异,表明NCE是训练局部归一化概率语言模型的一致且渐近无偏的方法,而负采样更应被理解为学习词表示的一种代理二分类任务,而非通用生成语言建模的估计器。关键洞见在于,NCE优化的是真实似然,而负采样无法保证与原始模型目标的渐近一致性。

ABSTRACT

Estimating the parameters of probabilistic models of language such as maxent models and probabilistic neural models is computationally difficult since it involves evaluating partition functions by summing over an entire vocabulary, which may be millions of word types in size. Two closely related strategies---noise contrastive estimation (Mnih and Teh, 2012; Mnih and Kavukcuoglu, 2013; Vaswani et al., 2013) and negative sampling (Mikolov et al., 2012; Goldberg and Levy, 2014)---have emerged as popular solutions to this computational problem, but some confusion remains as to which is more appropriate and when. This document explicates their relationships to each other and to other estimation techniques. The analysis shows that, although they are superficially similar, NCE is a general parameter estimation technique that is asymptotically unbiased, while negative sampling is best understood as a family of binary classification models that are useful for learning word representations but not as a general-purpose estimator.

研究动机与目标

  • 解决文献中关于在概率语言建模中何时使用噪声对比估计(NCE)与负采样的混淆问题。
  • 澄清NCE与负采样的理论基础,特别是其与似然最大化及归一化常数估计的关系。
  • 证明NCE在渐近意义上无偏且与最大似然估计一致,而负采样则不然。
  • 基于建模目标(语言建模 vs. 表示学习)提供对每种方法适用场景的系统性理解。

提出的方法

  • NCE将语言模型训练问题转化为一个二分类任务,以区分来自噪声分布 $ q(w) $ 的噪声样本与真实的上下文-词对。
  • 该方法使用一个包含一个来自经验分布 $ \tilde{p}(w|c) $ 的正样本和 $ k $ 个来自 $ q(w) $ 的负样本的代理数据集,然后最大化正确标签的条件对数似然。
  • 为避免计算难以处理的归一化常数 $ Z_{\theta}(c) $,NCE将其估计为可学习参数 $ z_c $,或在自归一化模型中设 $ z_c = 1 $。
  • 最终目标通过蒙特卡洛近似,用 $ k $ 个采样的负词替代对噪声分布的期望,从而实现随机优化。
  • 理论分析表明,当 $ k \to \infty $ 时,NCE梯度收敛至真实似然的梯度,证明了其渐近一致性。
  • 负采样可被解释为 $ k = |V| $ 且 $ q(w) $ 均匀时的NCE特例,但其目标函数与真实模型似然不一致,因此在生成建模中不具备一致性。

实验结果

研究问题

  • RQ1噪声对比估计(NCE)与负采样在理论基础和渐近行为上如何不同?
  • RQ2在何种条件下NCE是渐近无偏的?其与负采样的比较如何?
  • RQ3为何负采样不适合作为概率语言模型的一般参数估计器?
  • RQ4NCE与重要性采样等其他基于似然的估计技术之间有何关系?
  • RQ5在训练语言模型与学习词表示时,何时应优先选择NCE而非负采样?

主要发现

  • NCE是一种一致估计器,当负样本数趋于无穷时,其梯度趋近于真实对数似然梯度,因此渐近收敛至真实最大似然解。
  • 当负采样不优化式 (1) 中原始语言模型的似然时,其目标函数与真实模型分布不一致,因此无法保证一致性。
  • 当 $ k = |V| $ 且 $ q(w) $ 为均匀分布时,负采样等价于NCE,但该情形在实践中计算上不可行。
  • 在NCE中设 $ z_c = 1 $ 对神经网络有效,可实现自归一化输出,同时减少参数数量而不损失性能。
  • 负采样最适切的理解是作为学习词表示的代理二分类任务,而非用于训练生成语言模型的方法。
  • 本文结论认为,应使用NCE进行语言建模,而负采样适用于表示学习,但不适用于一般参数估计。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。