Skip to main content
QUICK REVIEW

[논문 리뷰] Weight Updates as Activation Shifts: A Principled Framework for Steering

Dyah Adila, John Cooper|arXiv (Cornell University)|2026. 02. 28.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

논문은 activation steering과 weight-space 미세조정 사이의 1차 동등성을 제시하고, block 이후의 steering을 매우 표현력이 높은 개입 지점으로 식별하며, 함께 학습되는 가중치-활성화 적응이 매우 적은 학습 파라미터로도 독자적인 접근법을 능가하는 경우가 많음을 보여준다.

ABSTRACT

Activation steering promises to be an extremely parameter-efficient form of adaptation, but its effectiveness depends on critical design choices -- such as intervention location and parameterization -- that currently rely on empirical heuristics rather than a principled foundation. We establish a first-order equivalence between activation-space interventions and weight-space updates, deriving the conditions under which activation steering can replicate fine-tuning behavior. This equivalence yields a principled framework for steering design and identifies the post-block output as a theoretically-backed and highly expressive intervention site. We further explain why certain intervention locations outperform others and show that weight updates and activation updates play distinct, complementary functional roles. This analysis motivates a new approach -- joint adaptation -- that trains in both spaces simultaneously. Our post-block steering achieves accuracy within 0.2%-0.9%$ of full-parameter tuning, on average across tasks and models, while training only 0.04% of model parameters. It consistently outperforms prior activation steering methods such as ReFT and PEFT approaches including LoRA, while using significantly fewer parameters. Finally, we show that joint adaptation often surpasses the performance ceilings of weight and activation updates in isolation, introducing a new paradigm for efficient model adaptation.

연구 동기 및 목표

  • activation-space 개입을 원리적 이론적 기초와 짝지어 매개변수 효율적 적응을 동기부여한다.
  • 가중치 업데이트와 activation steering 사이의 1차 동등성을 도출하여 최적 개입 지점을 식별한다.
  • post-block steering이 전체 미세 조정을 가장 잘 복제하고 모델과 작업 전반에서 그 효율성을 수량화한다.
  • 가중치-활성화의 공동 적응에 직교성 제약을 도입하여 보완적인 이점을 확보한다.

제안 방법

  • 작은 교란 하에서 activation-space 어댑터와 weight-space 업데이트 간의 형식적 매핑을 개발한다.
  • post-block(스킵 커넥션 이후) steering이 전체 잔여 스트림 업데이트를 포착하고 미세 조정과 가장 밀접하게 유사하다고 주장한다.
  • 오라클 δh_oracle를 이용해 표현력을 분석하고 post-block steering이 특정 조건에서 post-MLP steering을 근사할 수 있음을 증명한다.
  • 가중치 업데이트와 활성화 업데이트 간의 중복을 방지하기 위한 직교성 제약의 공동 적응을 도입한다.
  • 선형 또는 비선형 φ를 갖는 post-block 병목 어댑터를 구현하고 고정 파라미터 예산으로 작업 간 비교를 수행한다.
  • 공동 학습이 종종 가중치 전용 또는 활성화 전용 방법의 성능 한계를 능가함을 시연한다.

실험 결과

연구 질문

  • RQ1activation-space steering이 가중치 공간 미세 조정 동작을 재현할 수 있는 조건은 무엇인가?
  • RQ2Transformer 블록에서 어떤 개입 지점이 가장 표현력 있는 steering 능력을 제공하는가?
  • RQ3가중치 업데이트와 활성화 업데이트는 보완적 기능 역할을 하며 공동 적응이 고립된 방법을 능가할 수 있는가?
  • RQ4가중치와 활성화 업데이트 사이의 직교성 제약이 공동 적응 성능을 향상시키는가?
  • RQ5post-block steering은 다양한 작업(지시 튜닝, RL)과 모델 규모에서 어떤 성능을 보이나?

주요 결과

  • post-block steering은 전체 매개변수 미세 조정에 비해 평균 0.2%–0.9%의 정확도 차이로 달성하면서도 파라미터의 0.04%를 학습한다.
  • post-block steering은 작게 budgets에서 ReFT와 같은 이전 steering 방법 및 LoRA와 같은 PEFT 접근 방식보다 일관되게 우수한 성능을 보인다.
  • 활성화 업데이트와 가중치 업데이트는 보완적 역할을 하며, 직교성 제약을 갖춘 공동 적응은 단독 방법의 성능 한계를 최대 3.8%까지 상회할 수 있다.
  • skip-connection이 기하를 보존할 때 post-block steering이 post-MLP steering을 모방할 수 있음을 이론적으로 분석해 post-block 지점의 표현력을 정당화한다.
  • 공동 학습 비율은 BoolQ, Winograd, ARC, GSM8K, AQuA, ListOps 등에서 견고한 이득을 제공하며 지시 튜닝 및 RL로의 확장도 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.