QUICK REVIEW

[論文レビュー] Notes on Noise Contrastive Estimation and Negative Sampling

Chris Dyer|arXiv (Cornell University)|Oct 30, 2014

Speech and Audio Processing参考文献 7被引用数 63

ひとこと要約

この論文は、ノイズ対比推定（NCE）とネガティブサンプリングの理論的差異を明確にし、NCEが局所正規化された確率的言語モデルの学習において一貫的で、漸近的にバイアスのない手法であるのに対し、ネガティブサンプリングは一般化された生成的言語モデリングの推定器としてではなく、単語表現の学習のための代理二値分類タスクとしてより適切に理解されるべきであることを示している。主な洞察は、NCEが真の尤度を最適化するのに対し、ネガティブサンプリングは元のモデルの目的関数に対する漸近的整合性を保証しないことにある。

ABSTRACT

Estimating the parameters of probabilistic models of language such as maxent models and probabilistic neural models is computationally difficult since it involves evaluating partition functions by summing over an entire vocabulary, which may be millions of word types in size. Two closely related strategies---noise contrastive estimation (Mnih and Teh, 2012; Mnih and Kavukcuoglu, 2013; Vaswani et al., 2013) and negative sampling (Mikolov et al., 2012; Goldberg and Levy, 2014)---have emerged as popular solutions to this computational problem, but some confusion remains as to which is more appropriate and when. This document explicates their relationships to each other and to other estimation techniques. The analysis shows that, although they are superficially similar, NCE is a general parameter estimation technique that is asymptotically unbiased, while negative sampling is best understood as a family of binary classification models that are useful for learning word representations but not as a general-purpose estimator.

研究の動機と目的

確率的言語モデリングにおけるノイズ対比推定（NCE）とネガティブサンプリングの使用時期に関する文献における混乱を解消すること。
NCEとネガティブサンプリングの理論的基盤、特に尤度最大化と正規化定数の推定との関係を明確にすること。
NCEが漸近的にバイアスのないこと、最大尤度推定と一貫していること、一方ネガティブサンプリングがそうではないことを示すこと。
モデリングの目的（言語モデリング対表現学習）に基づいて、それぞれの手法が適切に適用される状況を体系的に理解すること。

提案手法

NCEは、言語モデルの学習問題を、真の文脈-語のペアとノイズ分布 $ q(w) $ から抽出されたノイズサンプルを区別する二値分類タスクに変換する。
実際の分布 $ \tilde{p}(w|c) $ からの1つのポジティブサンプルと $ q(w) $ からの $ k $ 個のネガティブサンプルを含む代理データセットを用意し、正しいラベルの条件付き対数尤度を最大化する。
計算が困難な正規化定数 $ Z_{\theta}(c) $ を避けるために、NCEではそれを学習可能なパrameter $ z_c $ として推定するか、自己正規化モデルでは $ z_c = 1 $ と設定する。
最終的な目的関数では、ノイズ分布の期待値を $ k $ 個のサンプルされたネガティブ語に置き換えることでモンテカルロ近似を用い、確率的最適化を可能にする。
理論的分析により、$ k \to \infty $ のとき、NCEの勾配は真の対数尤度の勾配に収束することが示され、漸近的整合性が証明される。
ネガティブサンプリングは、$ k = |V| $ かつ $ q(w) $ が一様分布であるNCEの特殊ケースと見なせるが、その目的関数は真のモデル尤度と一致しないため、生成的モデリングにおいて整合性がない。

実験結果

リサーチクエスチョン

RQ1ノイズ対比推定（NCE）とネガティブサンプリングは、理論的基盤と漸近的挙動においてどのように異なるか？
RQ2NCEはどのような条件下で漸近的にバイアスのない推定器となり、ネガティブサンプリングと比較してどう異なるか？
RQ3なぜネガティブサンプリングは一般化されたパrameter推定のための推定器として不適切なのか？
RQ4NCEは重要度サンプリングなどの尤度に基づく推定手法とどのような関係にあるか？
RQ5言語モデルの学習と単語表現の学習のどちらにおいて、NCEをネガティブサンプリングよりも優先すべきか？

主な発見

NCEは一貫した推定器であり、無限個のネガティブサンプルの極限において、真の最大尤度解に漸近的に収束する。これは、勾配が真の対数尤度勾配に近づくことから証明される。
ネガティブサンプリングは、式 (1) における元の言語モデルの尤度を最適化しない。なぜなら、その目的関数は真のモデル分布と整合しないからである。
$ k = |V| $ かつ $ q(w) $ が一様分布の場合、ネガティブサンプリングはNCEと同等になるが、実際には計算が不可能である。
NCEにおいて $ z_c = 1 $ と設定することは、ニューラルネットワークにおいて有効であり、自己正規化出力を可能にし、パラメータ数を減らしても性能に影響を及えない。
ネガティブサンプリングは、単語表現の学習のための二値分類の代理タスクとして最も適切に解釈されるべきであり、生成的言語モデルの学習手法としては不適切である。
本論文の結論として、NCEは言語モデリングに、ネガティブサンプリングは表現学習には適しているが、一般化されたパrameter推定には不適切である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。