Skip to main content
QUICK REVIEW

[論文レビュー] Symmetry in language statistics shapes the geometry of model representations

Dhruva Karkada, Daniel J. Korchinski|arXiv (Cornell University)|Feb 16, 2026
Topic Modeling被引用数 0
ひとこと要約

ティーエルディーアール: 本論文は、単語共起統計の翻訳対称性が、単語埋め込みとLLM表現に観察される円環的・1次元多様体および線形幾何構造を説明・予測し、潜在連続変数モデルによる摂動への頑健性を示すことを示している。

ABSTRACT

The internal representations learned by language models consistently exhibit striking geometric structure: calendar months organize into a circle, historical years form a smooth one-dimensional manifold, and cities' latitudes and longitudes can be decoded using a linear probe. To explain this neural code, we first show that language statistics exhibit translation symmetry (for example, the frequency with which any two months co-occur in text depends only on the time interval between them). We prove that this symmetry governs these geometric structures in high-dimensional word embedding models, and we analytically derive the manifold geometry of word representations. These predictions empirically match large text embedding models and large language models. Moreover, the representational geometry persists at moderate embedding dimension even when the relevant statistics are perturbed (e.g., by removing all sentences in which two months co-occur). We prove that this robustness emerges naturally when the co-occurrence statistics are controlled by an underlying latent variable. These results suggest that representational manifolds have a universal origin: symmetry in the statistics of natural data.

研究の動機と目的

  • 単語埋め込みにおける表現幾何が対になった共起統計を反映することを動機づけ、実証する。
  • 共起データの翻訳対称性と埋め込み多様体を結ぶ数学理論を開発する。
  • 周期的境界条件の意味連続体に対して解析的に埋め込み幾何を予測する。
  • 摂動下での表現幾何の頑健性を示し、潜在変数モデルと結びつける。
  • 単語埋め込みから深層トランスフォーマーモデルへ洞察を拡張し、座標の線形デコード可能性について議論する。

提案手法

  • 意味連続体上の翻訳対称カーネルで単語共起をモデル化する。
  • 共起行列M*が翻訳対称性を継承し、埋め込み幾何を支配する。
  • 周期1D格子(フーリエ埋め込み)と開境界条件(サイン/コサインモード)についてPCA投影埋め込みを解析的に予測する。
  • 線形プローブが数個のPCAモードから座標をデコードできることを、誤差スケーリング(epsilon^2 ~ r^{-1/D})で定量的に示す。
  • 共起を除去しても多様体が保持されることを通して、摂動に対する埋め込み幾何の頑健性を潜在変数結合で示す。
  • 頑健性を説明する集合的潜在変数モデルを提供し、2Dの地理連続体へ拡張する。

実験結果

リサーチクエスチョン

  • RQ1単語共起統計の翻訳対称性は、単語埋め込みの出現幾何を決定するのか。
  • RQ2埋め込み多様体(円、1Dリップル、線形地理符号)は対称原理から解析的に予測できるのか。
  • RQ3統計量の摂動に対する表現幾何の頑健性はどれほどか、どの機構がこの頑健性を説明するのか。
  • RQ4これらの予測は単語埋め込みだけでなく深層言語モデルとその座標の線形デコード性に拡張できるのか。
  • RQ5埋め込み幾何に観察される集合的効果の背後にある連続潜在変数モデルは何か。

主な発見

  • 共起統計の翻訳対称性から、 cyclical 概念の円、連続的なシーケンスの1Dリップルなどの埋め込み幾何が生まれる。
  • 共起カーネルから埋め込み幾何を解析的に予測でき、トップPCAモードは遅いフーリエモードに対応し、振幅はカーネルのフーリエ係数に結びつく。
  • 線形プローブは、少数のPCA成分から意味座標(例:年、緯度/経度)をデコードでき、誤差スケーリングε^2 ~ (r/Vol_D)^{1/D}の逆境界で表される。
  • 共起データが摂動されても中間次元で埋め込み幾何は持続する(例:月月共起を除去しても)。
  • 連続的潜在変数モデルは頑健性を説明する:多くの語が潜在的な季節的/地理的信号を共有し、PMIに影響を与え、大きな固有値と安定した多様体を生み出す。
  • 予測はword2vec風の埋め込みだけでなく、深層トランスフォーマー表現やLLMにも整合する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。