QUICK REVIEW

[논문 리뷰] Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations

Yuxuan Yao, Haonan Sheng|arXiv (Cornell University)|2026. 02. 03.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

이 논문은 Streaming Merging이라는 반복 업데이트 패러다임과 Activation-guided Rotation-aware Merging(ARM)을 제안하여 activation으로부터 도출된 방향을 회전시켜 경사 하강법을 근사하고, 초기 체크포인트에서 합병이 수렴된 파인튜닝을 능가하도록 하는 방법을 제시한다.

ABSTRACT

The escalating scale of Large Language Models (LLMs) necessitates efficient adaptation techniques. Model merging has gained prominence for its efficiency and controllability. However, existing merging techniques typically serve as post-hoc refinements or focus on mitigating task interference, often failing to capture the dynamic optimization benefits of supervised fine-tuning (SFT). In this work, we propose Streaming Merging, an innovative model updating paradigm that conceptualizes merging as an iterative optimization process. Central to this paradigm is extbf{ARM} ( extbf{A}ctivation-guided extbf{R}otation-aware extbf{M}erging), a strategy designed to approximate gradient descent dynamics. By treating merging coefficients as learning rates and deriving rotation vectors from activation subspaces, ARM effectively steers parameter updates along data-driven trajectories. Unlike conventional linear interpolation, ARM aligns semantic subspaces to preserve the geometric structure of high-dimensional parameter evolution. Remarkably, ARM requires only early SFT checkpoints and, through iterative merging, surpasses the fully converged SFT model. Experimental results across model scales (1.7B to 14B) and diverse domains (e.g., math, code) demonstrate that ARM can transcend converged checkpoints. Extensive experiments show that ARM provides a scalable and lightweight framework for efficient model adaptation.

연구 동기 및 목표

대형 언어 모델의 지속적이고 스트리밍 업데이트를 통한 효율적 모델 적응의 동기를 부여한다.
합병을 정적 보간이 아닌 최적화 유사 프로세스로 재정의한다.
업데이트를 데이터 기반 활성화 부분공간과 정렬시키기 위해 ARM을 도입한다.
스트리밍 ARM이 규모와 작업에 관계없이 완전히 수렴된 감독 학습 파인튜닝을 능가할 수 있음을 보인다.

제안 방법

Streaming Merging을 중간 체크포인트 시퀀스의 반복 업데이트 규칙으로 정의한다.
활성화 자취의 SVD를 통해 얻은 활성화 기반 회전 행렬들로 작업 벡터를 회전시키는 ARM을 도입한다(activation subspaces를 이용).
안착화(anchor)와 슬라이딩 윈도우 방식의 합병 업데이트를 형식화하여 안정성과 가소성의 균형을 맞춘다.
활성화 방향과 경사 하강 업데이트 간의 이론적 연결을 도출한다.
여러 모델 스케일(1.7B–14B)과 작업(math, code)에서 Streaming Merging 내의 ARM을 평가한다.

실험 결과

연구 질문

RQ1스트리밍식의 반복 합병이 고정 작업 내에서 사후 합병이나 전체 파인튜닝보다 우수할 수 있는가?
RQ2활성화 guided 회전이 합병을 선형 부분공간 이상으로 이동시키고 경사 기반 업데이트를 모방하게 할 수 있는가?
RQ3ARM이 초기 체크포인트에 강건하고 모델 규모와 도메인에 걸쳐 확장 가능한가?
RQ4표준 파인튜닝의 완전 수렴 후에도 스트리밍 ARM이 성능을 향상시킬 수 있는가?
RQ5ARM이 RL 중심 편집 및 저랭크 정제와 어떻게 상호 작용하는가?

주요 결과

ARM이 Streaming Merging과 결합될 때 모델 규모에 따라 가장 강력한 성능을 보인다(예: 구성 간 평균 점수 42.5–59.3).
ARM은 완전히 수렴된 SFT 체크포인트를 능가할 수 있으며, 특정 경우에 +0.7 및 +3.0 정확도 포인트와 같은 개선을 달성한다.
ARM을 갖춘 스트리밍 합병은 긴 학습 의존도를 줄이고 보통 수렴 전 2–6회의 반복, 이후에는 플래토에 도달하기까지 더 적은 횟수를 필요로 한다.
수렴된 모델에 ARM을 추가해도 효과가 지속되어 성능을 더욱 끌어올린다(예: 14B에서 1.8 포인트 증가).
코드 작업에서 Qwen2.5-7B에서 스트리밍 합병 후 평균 히가가 가장 높아(48.2) TA보다 0.2 포인트 높다.
ARM은 RL 편집 방법과 통합되어 추가 이득을 낳을 수 있으며, 저랭크 편집과의 호환성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.