[논문 리뷰] Symmetry in language statistics shapes the geometry of model representations
본 논문은 단어 동시출현 통계의 평행 이동 대칭이 단어 임베딩과 LLM 표현에서 관찰되는 순환하는 1차원 다양체와 선형 기하 구조를 설명하고 예측하며, 잠재 연속 변수 모델을 통한 섭동에 대한 강건성을 입증한다.
The internal representations learned by language models consistently exhibit striking geometric structure: calendar months organize into a circle, historical years form a smooth one-dimensional manifold, and cities' latitudes and longitudes can be decoded using a linear probe. To explain this neural code, we first show that language statistics exhibit translation symmetry (for example, the frequency with which any two months co-occur in text depends only on the time interval between them). We prove that this symmetry governs these geometric structures in high-dimensional word embedding models, and we analytically derive the manifold geometry of word representations. These predictions empirically match large text embedding models and large language models. Moreover, the representational geometry persists at moderate embedding dimension even when the relevant statistics are perturbed (e.g., by removing all sentences in which two months co-occur). We prove that this robustness emerges naturally when the co-occurrence statistics are controlled by an underlying latent variable. These results suggest that representational manifolds have a universal origin: symmetry in the statistics of natural data.
연구 동기 및 목표
- 단어 임베딩의 표현 기하가 쌍별 동시출현 통계를 반영한다는 점을 동기화하고 입증한다.
- 동시출현 데이터의 평행 이동 대칭성과 임베딩 다양한체를 연결하는 수학적 이론을 개발한다.
- 주기적 경계 조건과 개방 경계 조건 시맨틱 연속체에 대해 임베딩 기하를 해석적으로 예측한다.
- 섭동 하에서 표현 기하의 강건성을 보이고 잠재 변수 모델과의 연결성을 보인다.
- 단어 임베딩에서 얻은 통찰을 딥 트랜스포머 모델로 확장하고 시사점을 논의한다.
제안 방법
- 의미 연속체에 걸친 평행 이동 대칭 커널로 단어 동시출현을 모형화한다.
- 동시출현 행렬 M*가 평행 이동 대칭을 상속받고 임베딩 기하를 좌우한다.
- 주기적 1D 격자에서의 PCA 투영 임베딩에 대한 해석적 예측을 도출한다(Fourier 임베딩) 및 개방 경계 조건(open BC)에서의 sine/cosine 모드를 포함한다.
- 선형 프로브가 소수의 PCA 모드로부터 좌표를 디코딩할 수 있음을 누구나 확인된 오차 스케일링으로 증명한다(epsilon^2 ~ r^{-1/D}).
- 동시출현을 제거하거나 섭동하여도 임베딩 기하의 강건성을 시연하고 잠재 변수 결합을 통해 다양체가 보존됨을 보인다.
- 일괄적 잠재 변수 모델을 제시하여 강건성을 설명하고 2D 지리적 연속체로 확장한다.
실험 결과
연구 질문
- RQ1단어 동시출현 통계의 평행 이동 대칭성이 단어 임베딩의 출현 기하를 결정하는가?
- RQ2임베딩 다양체(원, 1D 파동, 선형 지리 인코딩)가 대칭 원리에 의해 해석적으로 예측될 수 있는가?
- RQ3표본 통계의 섭동에 대한 표현 기하의 강건성은 어느 정도이며, 이러한 강건성을 설명하는 메커니즘은 무엇인가?
- RQ4이러한 예측이 단어 임베딩에서 딥 언어 모델과 그 좌표의 선형 디코딩 가능성으로 확장되는가?
- RQ5임베딩 기하에서 관찰되는 집합적 효과의 기저에 어떤 연속 잠재 변수 모델이 있는가?
주요 결과
- 주기적 개념에 대한 원(circle)과 연속적 시퀀스에 대한 1D 파동(ripples)이 평행 이동 대칭 동시출현 통계에서 비롯된 단어 임베딩 기하로 나타난다.
- 동시출현 커널로부터 임베딩 기하를 해석적으로 예측하는 식이 있으며, 상위 PCA 모드는 커널 푸리에 계수와 연결된 느린 푸리에 모드에 대응한다.
- 선형 프로브는 몇 개의 PCA 성분으로부터 시맨틱 좌표(예: 연도, 위도/경도)를 해독할 수 있으며, 오차 스케일링 ε^2 ~ (r/Vol_D)^{1/D} 역 bound를 갖는다.
- 동시출현 데이터가 섭동되더라도 중간 차원에서 임베딩 기하가 지속된다(예: 월-월 동시출현 제거).
- 연속 잠재 변수 모델이 강건성을 설명한다: 많은 단어가 PMI에 영향을 주는 잠재적 계절성/지리 신호를 공유하여 큰 고유값과 안정된 다양체를 생성한다.
- 예측은 word2vec 유사 임베딩뿐 아니라 딥 트랜스포머 표현 및 LLM에도 부합한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.