[논문 리뷰] Transformers learn factored representations
이 논문은 다음 토큰 예측으로 사전 학습된 트랜스포머가 자동으로 인자화된 표현을 학습하고, 인자들을 직교적인 부분공간으로 조직하며, 인자들이 조건부 독립일 때 차원을 지수적으로 축소하는 것을 달성하고, 충실도(Fidelity)가 떨어지더라도 팩토링에 대한 귀납적 편향이 있음을 보인다.
Transformers pretrained via next token prediction learn to factor their world into parts, representing these factors in orthogonal subspaces of the residual stream. We formalize two representational hypotheses: (1) a representation in the product space of all factors, whose dimension grows exponentially with the number of parts, or (2) a factored representation in orthogonal subspaces, whose dimension grows linearly. The factored representation is lossless when factors are conditionally independent, but sacrifices predictive fidelity otherwise, creating a tradeoff between dimensional efficiency and accuracy. We derive precise predictions about the geometric structure of activations for each, including the number of subspaces, their dimensionality, and the arrangement of context embeddings within them. We test between these hypotheses on transformers trained on synthetic processes with known latent structure. Models learn factored representations when factors are conditionally independent, and continue to favor them early in training even when noise or hidden dependencies undermine conditional independence, reflecting an inductive bias toward factoring at the cost of fidelity. This provides a principled explanation for why transformers decompose the world into parts, and suggests that interpretable low dimensional structure may persist even in models trained on complex data.
연구 동기 및 목표
- 트랜스포머가 세계를 이산적인 부분으로 팩터링하는지 여부를 제기한다.
- 두 가지 표현 가설(조인트 vs. 팩터링)을 형식화하고 기하학적 예측을 도출한다.
- 지 latent 구조를 가진 합성 데이터에서 트랜스포머가 팩터화된 표현을 학습하는지 테스트한다.
- 팩터링이 아키텍처의 귀납적 편향인지, 조건부 독립이 위반될 때 어떤 동작을 보이는지 평가한다.
제안 방법
- 잠재 데이터 구조와 활성화 기하를 연결하는 이론적 프레임워크를 일반화된 히든 마르코프 모델(GHMM)을 사용해 개발한다.
- 예측 벡터를 정의하고 조인트 및 팩터링 표현에서의 기하를 분석한다.
- 다섯 개의 잠재 인자(세 개의 3상 HMM과 두 개의 3D GHMM)로 합성 데이터를 구성하고 GPT-2 스타일 트랜스포머를 다음 토큰 예측으로 학습시킨다.
- PCA 및 변량 공간 각각의 서브스페이스를 바꿔가며 인자별 서브스페이스를 식별하고 직교성을 테스트한다.
- 잡음 채널을 추가해 조건부 독립 위반을 의도적으로 도입하고 표현에 미치는 영향을 관찰한다.
- 일반성을 평가하기 위해 RNN/LSTM에서도 실험을 재현한다.
실험 결과
연구 질문
- RQ1트랜스포머가 예측 정보를 조인트 텐서-곱 공간에 표현하는가, 아니면 팩터링된 직교 서브스페이스 구조에 표현하는가?
- RQ2데이터 생성 조건에서 트랜스포머가 팩터화된 표현을 우선적으로 학습하는가?
- RQ3팩터링이 아키텍처의 귀납적 편향이며 예측 충실도가 감소하더라도 그런가?
- RQ4요소 간 조건부 독립이 약해지거나 깨질 때 표현은 어떻게 바뀌는가?
- RQ5RNN 기반 아키텍처도 트랜스포머와 유사한 팩터화 표현을 보이는가?
주요 결과
- 데이터 생성 과정이 조건부 독립적인 인자로 분해될 때 트랜스포머는 팩터링된 표현을 학습하고 차원을 지수적으로 축소한다(조인트 공간의 경우 필요한 차원은 ∏d_n − 1이고, 팩터링의 경우 필요 차원은 ∑(d_n − 1)이다).
- 활성화는 각 인자당 하나의 N개의 직교 서브스페이스로 구성되며, 각 인자의 예측 벡터는 해당 서브스페이스에 위치한다.
- 팩터링된 표현은 학습 초기에 나타나며 임베딩 층에서도 나타나고, 조건부 독립이 완벽하게 충족되지 않더라도 지속된다.
- 요인들이 노이즈로 인해 불완전하게 독립적이 될 때도 모델은 여전히 팩터링 해를 선호하고, 충실도를 회복하기 위해 차원을 확장하기 전에 먼저 팩터링 구간에 머문다.
- RNN/LSTM도 팩터링 표현 경향을 보이며, 이는 더 넓은 아키텍처 현상을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.