Skip to main content
QUICK REVIEW

[論文レビュー] Diachronic Word Embeddings Reveal Statistical Laws of Semantic Change

William L. Hamilton, Jure Leskovec|arXiv (Cornell University)|May 30, 2016
Language and cultural evolution参考文献 45被引用数 179
ひとこと要約

本論文は、4言語にわたる6つの歴史コーパスを横断して diachronic word embeddings(PPMI、SVD、SGNS)を学習し、意味の変化を定量化する。2つの法則を発見した: (1) law of conformity—変化率は語彙頻度の逆数的スケール、(2) law of innovation—頻度を統制した後も多義性が変化率を高める。

ABSTRACT

Understanding how words change their meanings over time is key to models of language and cultural evolution, but historical data on meaning is scarce, making theories hard to develop and test. Word embeddings show promise as a diachronic tool, but have not been carefully evaluated. We develop a robust methodology for quantifying semantic change by evaluating word embeddings (PPMI, SVD, word2vec) against known historical changes. We then use this methodology to reveal statistical laws of semantic evolution. Using six historical corpora spanning four languages and two centuries, we propose two quantitative laws of semantic change: (i) the law of conformity---the rate of semantic change scales with an inverse power-law of word frequency; (ii) the law of innovation---independent of frequency, words that are more polysemous have higher rates of semantic change.

研究の動機と目的

  • 時間とともに分布表現を用いて意味の変化を研究する動機づけ。
  • 複数の埋め込み手法(PPMI、SVD、SGNS)とベンチマークを用いて、意味の変化を定量化する堅牢な方法論を開発する。
  • 意味の進化の跨言語的パターンを特定し、頻度と多義性が変化と関連する定量的法則を定式化する。

提案手法

  • 各期間ごとに PPDMI、SVD、SGNS を用いて時系列分割の語彙埋め込みを構築する。
  • 横方向のコサイン類似度を維持するため、直交 Procrustes による時間期の埋め込みを整列させる。
  • 意味の変化を定量化する: (i) 単語間の類似度の時系列、 (ii) 時間を通じた個々の単語の意味の変位。
  • 歴史的ベンチマークに対して同期的精度と通時的妥当性を評価する。
  • 頻度と多義性を説明変数とする線形混合モデル(単語のランダム切片を含む)で意味の変化速度をモデル化する。
  • 多義性は PPIM-based 共起ネットワークの局所クラスタリング係数として定義し、分析には対数頻度変換を用いる。

実験結果

リサーチクエスチョン

  • RQ1異なる埋め込み手法は、複数言語に跨る時変的意味変化の把握においてどう比較されるか?
  • RQ2多義性を統制した場合、語頻度と意味変化率の関係はどうなるか?
  • RQ3頻度を考慮した後の多義性と意味変化との関係はどうなるか?
  • RQ4統計的法則で捉えられる跨言語の意味 evolution の規則性は存在するか?

主な発見

  • 意味変化の2つの定量法則:law of conformity(変化率は頻度の負のべき乗でスケール)と law of innovation(頻度を統制した後、多義語は変化が速い)。
  • 言語を超えて、変化率 Δ(w) ≈ f(w)^{β_f} · d(w)^{β_d} に従い、β_f < 0 かつ β_d > 0。
  • 頻度効果はデータセットを越えて頑健であり、高頻度語ほど変化が遅い。
  • 頻度を統制した後も多義性の効果は持続し、文脈的多様性が意味の変化を速める。
  • SGNS は変化を発見する際に一般的に最も良い成績を示す一方、SVD は微妙な変化の検出に敏感であり、PPMI は三者の中で最も悪い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。