[논문 리뷰] Fractional Rotation, Full Potential? Investigating Performance and Convergence of Partial RoPE
이 논문은 변압기의 부분 RoPE를 체계적으로 연구하여, 은닉 차원의 약 10%에 RoPE를 적용하는 것이 전체 RoPE와 거의 같게 수렴하고 최종 손실에 도달하며, 긴 맥락에서의 메모리 절감 효과를 크게 제공한다는 점을 보여준다.
Rotary Positional Embedding (RoPE) is a common choice in transformer architectures for encoding relative positional information. Although earlier work has examined omitting RoPE in specific layers, the effect of varying the fraction of hidden dimensions that receive rotary transformations remains largely unexplored. This design choice can yield substantial memory savings, which becomes especially significant at long context lengths. We find up to 10x memory savings over the standard RoPE cache, while achieving comparable final loss. In this work, we present a systematic study examining the impact of partial RoPE on training dynamics and convergence across architectures and datasets. Our findings uncover several notable patterns: (1) applying RoPE to only a small fraction of dimensions (around 10%) achieves convergence comparable to using full RoPE; (2) these trends hold consistently across model size, sequence lengths and datasets of varying quality and architectures, with higher-quality data resulting in lower overall loss and similar benchmark performance; and (3) some models trained with NoPE (No Positional Encoding) showcase unstable learning trajectories, which can be alleviated through minimal RoPE application or QK-Norm which converges to a higher loss. Together, these results offer practical guidance for model designers aiming to balance efficiency and training stability, while emphasizing the previously overlooked importance of partial RoPE.
연구 동기 및 목표
- 회전 포지셔널 임베딩(RoPE)을 받는 은닉 차원의 비율이 학습 다이나믹스와 수렴에 어떻게 영향을 미치는지 조사한다.
- 특히 긴 컨텍스트 길이에서 부분 RoPE로 인한 메모리 효율 향상을 평가한다.
- 아키텍처, 모델 크기 및 데이터 품질 전반에 걸친 강건성을 평가한다.
- 효율성과 안정성의 균형을 맞추려는 설계자들을 위한 실질적 가이드를 제공한다.
제안 방법
- RoPE 분수 varying: 0% (NoPE), 10%, 25%, 50%, 75%, 100% (full RoPE)으로 초기부터 여러 트랜스포머 모델을 사전 학습한다.
- 시퀀셜(attention)과 병렬(attention) 아키텍처를 모두 테스트한다( Llama-3.2/3.1 및 Pythia-1B 스타일).
- FineWeb 및 FineWeb-Edu 데이터셋에서 100B-토큰 하위집합과 표준 LM 평가 벤치마크, PubMedQA를 사용하여 평가한다.
- 손실 궤적을 통한 학습 다이나믹스를 탐구하고 LM Evaluation Harness 지표 및 MCQ 벤치마크를 통해 벤치마크 성능을 평가한다.
- NoPE 구성에서 발생할 수 있는 손실 급등을 완화하기 위한 QK-Norm과 같은 안정성 기법을 조사한다.

실험 결과
연구 질문
- RQ1RQ1: RoPE를 받는 은닉 차원의 비율이 모델 학습 다이나믹스와 수렴에 어떤 영향을 미치는가?
- RQ2RQ2: 사전 학습 데이터 품질이 최적의 부분 RoPE 구성에 어떤 영향을 미치는가?
- RQ3RQ3: 시퀀스 길이가 부분 RoPE 구성의 동작에 어떤 영향을 미치는가?
- RQ4RQ4: 부분 RoPE의 효과가 시퀀셜 및 병렬 트랜스포머 블록 설계에서 일관적인가?
- RQ5RQ5: 모델 규모가 관찰된 부분 RoPE 추세에 어떤 영향을 미치는가?
- RQ6RQ6: 벤치마크 평가가 손실 기반 발견을 뒷받침하는가?
주요 결과
- 은닉 차원의 고작 10%에 RoPE를 적용해도 전체 RoPE와 수렴 및 최종 손실이 거의 같게 나타난다.
- NoPE 또는 매우 낮은 RoPE(예: 2 채널 ~4%)는 더 높은 최종 손실로 수렴한다.
- 더 질 좋은 사전 학습 데이터는 절대 손실을 증가시키지만 구성 간 부분 RoPE 패턴은 보존한다.
- 추세는 시퀀스 길이(1024, 4096, 8192) 및 시퀀셜 대 병렬 주의 아키텍처 간에도 유지된다.
- NoPE는 병렬 아키텍처에서 불안정한 학습 궤적이나 손실 급등을 초래할 수 있으며, 이는 QK-Norm 또는 부분 RoPE로 완화될 수 있다.
- 벤치마크 결과는 손실 기반 분석과 크게 일치하며 9/10 MCQ 과제에서 RoPE 변형 간 차이가 거의 없고; 10% 이상 RoPE로 이동하면 perplexity가 개선된다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.