[논문 리뷰] SpiralFormer: Looped Transformers Can Learn Hierarchical Dependencies via Multi-Resolution Recursion
SpiralFormer는 루프된 Transformer에 다중 해상도 재귀를 도입하여 계층적이고 스케일 의존적 의존성을 가능하게 하며, 160M–1.4B 규모에서 루프형 및 비루프형 베이스라인보다 효율성을 향상시킵니다.
Recursive (looped) Transformers decouple computational depth from parameter depth by repeatedly applying shared layers, providing an explicit architectural primitive for iterative refinement and latent reasoning. However, early looped Transformers often underperform non-recursive baselines of equal compute. While recent literature has introduced more effective recursion mechanisms to mitigate this gap, existing architectures still operate at a fixed, full-token resolution, neglecting the potential efficiency of computing over compressed latent representations. In this paper, we propose SpiralFormer, a looped Transformer that executes recurrence under a multi-resolution recursion schedule. We provide probing evidence that multi-resolution recursion enables the model to learn hierarchical dependencies by inducing iteration-wise functional specialization across different scales. Empirically, SpiralFormer achieves better parameter and compute efficiency than both looped and non-looped baselines across model scales from 160M to 1.4B, establishing sequence resolution as a potential axis for scaling recursive architectures.
연구 동기 및 목표
- 다중 해상도 재귀가 루프형 트랜스포머가 계층적 의존성을 학습하게 하는지 조사합니다.
- SpiralFormer를 개발하여 토큰을 잠재 슬롯으로 압축하고 재귀 내에서 해상도 간 작동합니다.
- 거칠은에서 미세로 가는, 공유 코어 재귀가 전체 해상도 루프보다 계산/매개변수 효율이 더 좋음을 입증합니다.
- 모델 규모(160M–1.4B) 전반에 걸친 실증적 근거를 제공하여 다중 해상도 재귀가 성능과 효율성을 향상시킵니다.
제안 방법
- 프리/루프/포스트 블록과 공유 루프 코어를 갖춘 미들 사이클 아키텍처를 채택합니다.
- 청크 수준 잠재상으로 다운샘플링하고, 공유 코어로 처리한 뒤 토큰 길이로 업샘플링하며, 오른쪽 시프트를 통한 엄격한 자기회귀 인과성을 갖는 다중 해상도 재귀를 도입합니다.
- 반복 중 유효 시퀀스 길이 L_t를 다르게 하는 해상도 스케줄 {r_t}를 정의합니다.
- 매 이터레이션 업데이트를 실행 상태에 융합하기 위해 MeSH 또는 Anchor 토폴로지 업데이트를 사용합니다.
- 청크화, 오프셋 및 어텐션 기반 다운/업 스케일링 메커니즘을 통해 인과적 다운/업 스케일링을 구현합니다.
- Pythia 스위트(160M–1.4B)에서 디코더 스타일 트랜스포머로 사전학습을 평가하고, 계산 및 매개변수 예산 측면에서 Baseline 및 LoopedFormer과 비교합니다.
실험 결과
연구 질문
- RQ1다중 해상도 재귀가 전체 해상도 루프에서 포착되지 않은 계층적 의존성을 루프형 트랜스포머가 학습하게 하나요?
- RQ2압축된 잠재 표현 위에서 작동하는 공유 코어가 전통적인 루프형 또는 비루프형 아키텍처보다 더 나은 매개변수 및 계산 효율성을 달성할 수 있나요?
- RQ3해상도 스케줄이 모델 성능과 스케일링 동작에 어떤 영향을 미치나요?
- RQ4SpiralFormer에서 재귀 비율이 검증 손실과 용량에 미치는 영향은 무엇인가요?
- RQ5해상도가 증가함에 따라 루프 반복 간 주의 패턴이 일관되게 이동하여 계층적 추론을 나타내나요?
주요 결과
| 모델 | 구성 | 매개변수 (M) (총/비임베딩) | FLOPs (1e12) (4096 프리필) | 퍼플렉시티 ↓ | 작업 정확도 ↑ | 0-shot | 5-shot | Pile | Wiki | LD-O | LD-S |
|---|---|---|---|---|---|---|---|---|---|---|---|
| Pythia-160M | Baseline (Pythia) | 163.5 / 85.1 | 1.65 | 11.31 | 30.32 | 42.86 | 175.62 | 39.88 | 40.54 | ||
| LoopedFormer * | 2+4×{1,1}+2 | 135.2 / 56.7 | 1.65 | 11.63 | 31.69 | 50.38 | 195.11 | 38.81 | 40.15 | ||
| LoopedFormer † | 2+4×{1,1}+2 | 135.2 / 56.7 | 1.65 | 11.37 | 30.43 | 46.60 | 178.77 | 39.41 | 40.60 | ||
| SpiralFormer-B † | 2+4×{1/8,1/4,1/2,1}+2 | 135.2 / 56.8 | 1.48 | 11.29 | 30.27 | 43.27 | 155.78 | 39.73 | 41.02 | ||
| SpiralFormer-L † | 4+4×{1/16,1/8,1/4,1/2}+4 | 163.6 / 85.1 | 1.49 | 10.94 | 28.85 | 41.24 | 147.52 | 39.30 | 41.37 | ||
| Pythia-410M | Baseline (Pythia) | 407.4 / 302.3 | 4.59 | 9.07 | 21.79 | 19.48 | 65.86 | 43.87 | 45.31 | ||
| LoopedFormer * | 4+8×{1,1}+4 | 306.7 / 201.5 | 4.59 | 9.19 | 22.12 | 20.37 | 52.55 | 43.70 | 45.68 | ||
| LoopedFormer † | 4+8×{1,1}+4 | 306.7 / 201.6 | 4.59 | 9.09 | 21.84 | 19.63 | 42.51 | 44.12 | 45.56 | ||
| SpiralFormer-B * | 4+8×{1/8,1/4,1/2,1}+4 | 306.7 / 201.6 | 4.10 | 9.13 | 22.04 | 21.96 | 47.33 | 43.87 | 46.30 | ||
| SpiralFormer-B † | 4+8×{1/8,1/4,1/2,1}+4 | 306.8 / 201.6 | 4.11 | 9.00 | 21.48 | 19.11 | 39.78 | 44.31 | 46.75 | ||
| SpiralFormer-L † | 8+8×{1/16,1/8,1/4,1/2}+8 | 407.5 / 302.4 | 4.16 | 8.73 | 20.55 | 20.38 | 47.89 | 44.97 | 47.06 | ||
| Pythia-1B | Baseline (Pythia) | 1020.2 / 805.7 | 9.67 | 7.96 | 17.66 | 13.53 | 33.65 | 46.95 | 49.07 | ||
| LoopedFormer * | 3+5×{1,1}+3 | 768.4 / 553.9 | 9.67 | 8.10 | 18.15 | 13.32 | 32.34 | 46.73 | 48.83 | ||
| LoopedFormer † | 3+5×{1,1}+3 | 768.4 / 554.0 | 9.67 | 7.90 | 17.54 | 12.19 | 26.71 | 47.53 | 49.51 | ||
| SpiralFormer-B † | 3+5×{1/8,1/4,1/2,1}+3 | 768.6 / 554.1 | 8.95 | 7.80 | 17.21 | 11.96 | 25.55 | 48.14 | 50.25 | ||
| SpiralFormer-L † | 5+6×{1/16,1/8,1/4,1/2}+5 | 1020.4 / 805.9 | 8.96 | 7.64 | 16.73 | 11.94 | 23.90 | 48.97 | 51.83 | ||
| Pythia-1.4B | Baseline (Pythia) | 1423.0 / 1208.6 | 14.08 | 7.44 | 15.97 | 10.51 | 22.81 | 49.50 | 51.93 | ||
| Baseline † | 24 Layers | 1423.1 / 1208.7 | 14.08 | 7.26 | 15.25 | 9.46 | 16.31 | 50.21 | 53.12 | ||
| LoopedFormer * | 4+8×{1,1}+4 | 1020.2 / 805.7 | 14.08 | 7.51 | 16.25 | 10.71 | 19.37 | 49.39 | 51.27 | ||
| LoopedFormer † | 4+8×{1,1}+4 | 1020.2 / 805.8 | 14.08 | 7.39 | 15.84 | 9.72 | 19.39 | 50.56 | 52.79 | ||
| SpiralFormer-B † | 4+8×{1/8,1/4,1/2,1}+4 | 1020.4 / 805.9 | 12.92 | 7.30 | 15.61 | 9.06 | 15.30 | 51.48 | 53.22 | ||
| SpiralFormer-L † | 8+8×{1/16,1/8,1/4,1/2}+8 | 1423.2 / 1208.8 | 13.13 | 7.14 | 15.03 | 9.73 | 14.42 | 51.75 | 54.37 |
- SpiralFormer는 160M–1.4B 규모에서 루프형 및 비루프형 베이스라인 모두보다 더 우수한 매개변수 및 계산 효율성을 달성합니다.
- 거칠은에서 미세로 가는 다중 해상도 스케줄은 특정 크기에서 FLOPs를 일관되게 감소시키면서도 퍼플렉시티 및 다운스트림 정확도를 유지하거나 향상시킵니다.
- 매 매개변수 수가 일치할 때 SpiralFormer-L은 FLOPs를 약 3–10% 감소시키고 퍼플렉시티 및 소수샷 정확도를 향상시킵니다(예: 1.4B: 14.08→13.13 FLOPs; 51.93→54.37 5-shot).
- 어텐션 프로브는 교차 루프 변화를 보이며, 해상도가 높은 루프는 더 선별적(엔트로피 감소)해지고 더 강한 국소성을 나타냅니다(로컬 주의 질량 증가).
- 교차 루프 어텐션 다이나믹은 전체 해상도 LoopedFormer에서 약하므로 계층적 패턴은 루프만이 아닌 다중 해상도 설계에 묶여 있음을 시사합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.