Skip to main content
QUICK REVIEW

[논문 리뷰] Spherical Steering: Geometry-Aware Activation Rotation for Language Models

Zejia You, Chunyuan Deng|arXiv (Cornell University)|2026. 02. 09.
Topic Modeling인용 수 0
한 줄 요약

학습 없이도 활성화 제어를 통해 은닉 활성화를 초 구면의 진실 방향으로 회전시키는 vMF 기반 신뢰 게이트를 사용하는 활성화 회전 방법으로, 표현 크기를 해치지 않으면서 다지선다 정확도와 개방형 생성 품질을 개선합니다.

ABSTRACT

Inference-time steering has emerged as a promising paradigm for controlling language models (LMs) without the cost of retraining. However, standard approaches typically rely on activation addition, a geometric operation that inevitably alters the magnitude of hidden representations. This raises concerns about representation collapse and degradation of open-ended generation capabilities. In this work, we explore Spherical Steering, a training-free primitive that resolves this trade-off through activation rotation. Rather than shifting activations with a fixed vector, our method rotates them along a geodesic toward a target direction, guiding the activation toward the target concept while preserving the integrity of the signal. To further enhance adaptivity, we incorporate a confidence gate that dynamically modulates steering strength based on input uncertainty. Extensive experiments across multiple-choice benchmarks demonstrate that Spherical Steering significantly outperforms addition-based baselines (notably by +10% on TruthfulQA, COPA, and Storycloze), while simultaneously maintaining the model's general open-ended generation quality. This work highlights the value of geometric consistency, suggesting that norm-preserving rotation is a robust and effective primitive for precise inference-time control.

연구 동기 및 목표

  • retraining 없이 LM의 추론 시 제어를 촉진한다.
  • 활성화 크기를 변화시키는 가법적 활성화 제어의 단점을 해결한다.
  • 진실한 개념으로 표현을 회전시키는 노름 보존 지오데식 회전 방법을 제안한다.
  • 입력 불확실성에 따라 Steering을 어댑티브하게 적용하는 신뢰 게이트를 도입한다.
  • 학습 없이도 다수 벤치마크에서 최첨단 성능을 보여주고 생성 품질을 유지한다.

제안 방법

  • 양성/음성 예시 활성화로부터 대조적 프로토타입 방향 μ를 구성해 진실성 축을 정의한다.
  • μ를 향한 지오데식으로 활성화 h를 회전시켜(구면 선형 보간법 적용) 활성화 크기(노름)를 보존한다.
  • 방향을 계산하기 위해 활성화를 정규화하고 Slerp 기반 회전을 진실한 방향 μ_T toward 적용한 뒤 회전 후 원래의 크기를 복원한다.
  • 현재 활성화 방향에서 회전 강도 t를 계산하는 vMF(베타-분포가 아닌 von Mises–Fisher) 기반 신뢰 게이트를 사용해 입력에 따라 개입 정도를 조절한다.
  • retraining 없이도 특정 레이어 및 디코딩 단계에서 Steering을 적용해 생성에 영향을 주고 추론 시 제어를 가능하게 한다.

실험 결과

연구 질문

  • RQ1 기하학적으로 의식 및 노름 보존 회전이 LM 제어 과제에서 가법적 활성화 제어보다 성능을 더 낼 수 있는가?
  • RQ2 신뢰 게이트가 있는 지오데식 회전이 다지선다 정확도와 개방형 생성 품질을 LM 계열 전반에서 개선하는가?
  • RQ3 활성화 방향이 진실성 신호의 주요 전달자인가(크기보다 방향이 핵심인가) — 구면 Steering의 타당성을 입증하는가?
  • RQ4 다중 레이어 Steering이 정확도와 생성 품질에 어떤 영향을 주며 최적의 레이어 전략은 무엇인가?
  • RQ5 구면 Steering이 인-context 학습 및 다른 프롬프트 기법과 얼마나 잘 보완하는가?

주요 결과

  • Spherical Steering은 LLaMA-3.1-8B-Instruct에서 평균 다지선다 정확도를 최대 +11.09%, Qwen-2.5-7B-Instruct에서 +5.31% 개선하여 최적 가법 baselines 대비 우수한 성능을 보였다.
  • 이 방법은 Pareto 개선을 달성하여 TRUE × INFO 점수를 높이고 생성 품질도 향상시키며, 생성 품질을 악화시키는 가법 방법과 달리 제약이 없다.
  • 노름 보존 회전은 가법 편집보다 붕괴 효율이 높아 유사한 표현 저하 수준에서 더 큰 정확도 이득을 제공한다.
  • vMF 기반 신뢰 게이팅은 입력에 따라 Steering을 어댑트하게 가능하게 하여 높은 Steering 강도에서도 생성 품질을 유지한다.
  • 다중 레이어 Steering은 생성 정보량(INFO)에서 더 큰 이득을 주는 반면 MC 정확도는 소폭 상승에 그치고, 몇 개의 레이어를 넘으면 효과가 감소한다.
  • Spherical Steering은 few-shot in-context learning과 보완적으로 작용하여 ICL 위에 상당한 이득을 제공하되 생성된 콘텐츠를 방해하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.