Skip to main content
QUICK REVIEW

[论文解读] Symmetry in language statistics shapes the geometry of model representations

Dhruva Karkada, Daniel J. Korchinski|arXiv (Cornell University)|Feb 16, 2026
Topic Modeling被引用 0
一句话总结

论文表明单词共现统计中的平移对称性可以解释并预测在单词嵌入和大型语言模型表示中观察到的圆形、一维流形以及线性几何结构,并通过潜在连续变量模型演示对扰动的鲁棒性。

ABSTRACT

The internal representations learned by language models consistently exhibit striking geometric structure: calendar months organize into a circle, historical years form a smooth one-dimensional manifold, and cities' latitudes and longitudes can be decoded using a linear probe. To explain this neural code, we first show that language statistics exhibit translation symmetry (for example, the frequency with which any two months co-occur in text depends only on the time interval between them). We prove that this symmetry governs these geometric structures in high-dimensional word embedding models, and we analytically derive the manifold geometry of word representations. These predictions empirically match large text embedding models and large language models. Moreover, the representational geometry persists at moderate embedding dimension even when the relevant statistics are perturbed (e.g., by removing all sentences in which two months co-occur). We prove that this robustness emerges naturally when the co-occurrence statistics are controlled by an underlying latent variable. These results suggest that representational manifolds have a universal origin: symmetry in the statistics of natural data.

研究动机与目标

  • 用动机性说明并演示单词嵌入中的表示几何结构反映成对共现统计。
  • 建立一个将共现数据的平移对称性与嵌入流形联系起来的数学理论。
  • 在周期性和开放边界条件语义连续体上解析性地预测嵌入几何。
  • 展示表征几何在扰动下的鲁棒性,并将其与潜在变量模型联系起来。
  • 将从词嵌入得到的洞见扩展到深度Transformer模型并讨论影响。

提出的方法

  • 用在语义连续体上具有平移对称核来建模词共现。
  • 证明共现矩阵 M* 继承平移对称性并支配嵌入几何。
  • 在周期性一维晶格(傅里叶嵌入)和开放边界条件下推导PCA投影嵌入的解析预测。
  • 证明线性探测器可以用少量的PCA模态解码坐标,且误差标度(ε^2 ~ r^{-1/D})。
  • 通过去除共现并通过潜在变量耦合显示嵌入几何对扰动的鲁棒性以及保持流形。
  • 给出一个集体潜在变量模型来解释鲁棒性并扩展到二维地理连续体。

实验结果

研究问题

  • RQ1共现统计中的平移对称性是否决定了词嵌入的出现几何?
  • RQ2是否能从对称性原理分析预测嵌入流形(圆、1D 纹波、线性地理编码)?
  • RQ3表示几何对统计扰动的鲁棒性有多大,哪些机制解释这种鲁棒性?
  • RQ4这些预测是否可从词嵌入扩展到深度语言模型及其坐标的线性可解性?
  • RQ5支配嵌入几何的潜在连续变量模型是什么?

主要发现

  • 词嵌入几何形状如圆形(循环概念)和一维纹波(连续序列)源自具有平移对称性的共现统计。
  • 解析表达式可从共现核预测嵌入几何;最高的PCA模态对应于慢速傅里叶模态,其幅度与核的傅里叶系数相关。
  • 线性探测器可以从少量PCA分量解码语义坐标(如年份、经纬度),误差标度为 ε^2 ~ (r/Vol_D)^{1/D} 的反比界。
  • 即使在共现数据被扰动(如移除月-月共现)时,嵌入几何在中等维度仍然存在。
  • 一个连续潜在变量模型解释鲁棒性:许多词共享潜在的季节性/地理信号影响 PMI,产生大的特征值并维持稳定流形。
  • 这些预测不仅适用于类似Word2Vec的嵌入,也与深度Transformer表示及LLMs 相一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。