QUICK REVIEW

[논문 리뷰] Spherical Steering: Geometry-Aware Activation Rotation for Language Models

Zejia You, Chunyuan Deng|arXiv (Cornell University)|2026. 02. 09.

Topic Modeling인용 수 0

한 줄 요약

학습 없이도 활성화 제어를 통해 은닉 활성화를 초 구면의 진실 방향으로 회전시키는 vMF 기반 신뢰 게이트를 사용하는 활성화 회전 방법으로, 표현 크기를 해치지 않으면서 다지선다 정확도와 개방형 생성 품질을 개선합니다.

ABSTRACT

Inference-time steering has emerged as a promising paradigm for controlling language models (LMs) without the cost of retraining. However, standard approaches typically rely on activation addition, a geometric operation that inevitably alters the magnitude of hidden representations. This raises concerns about representation collapse and degradation of open-ended generation capabilities. In this work, we explore Spherical Steering, a training-free primitive that resolves this trade-off through activation rotation. Rather than shifting activations with a fixed vector, our method rotates them along a geodesic toward a target direction, guiding the activation toward the target concept while preserving the integrity of the signal. To further enhance adaptivity, we incorporate a confidence gate that dynamically modulates steering strength based on input uncertainty. Extensive experiments across multiple-choice benchmarks demonstrate that Spherical Steering significantly outperforms addition-based baselines (notably by +10% on TruthfulQA, COPA, and Storycloze), while simultaneously maintaining the model's general open-ended generation quality. This work highlights the value of geometric consistency, suggesting that norm-preserving rotation is a robust and effective primitive for precise inference-time control.

연구 동기 및 목표

retraining 없이 LM의 추론 시 제어를 촉진한다.
활성화 크기를 변화시키는 가법적 활성화 제어의 단점을 해결한다.
진실한 개념으로 표현을 회전시키는 노름 보존 지오데식 회전 방법을 제안한다.
입력 불확실성에 따라 Steering을 어댑티브하게 적용하는 신뢰 게이트를 도입한다.
학습 없이도 다수 벤치마크에서 최첨단 성능을 보여주고 생성 품질을 유지한다.

제안 방법

양성/음성 예시 활성화로부터 대조적 프로토타입 방향 μ를 구성해 진실성 축을 정의한다.
μ를 향한 지오데식으로 활성화 h를 회전시켜(구면 선형 보간법 적용) 활성화 크기(노름)를 보존한다.
방향을 계산하기 위해 활성화를 정규화하고 Slerp 기반 회전을 진실한 방향 μ_T toward 적용한 뒤 회전 후 원래의 크기를 복원한다.
현재 활성화 방향에서 회전 강도 t를 계산하는 vMF(베타-분포가 아닌 von Mises–Fisher) 기반 신뢰 게이트를 사용해 입력에 따라 개입 정도를 조절한다.
retraining 없이도 특정 레이어 및 디코딩 단계에서 Steering을 적용해 생성에 영향을 주고 추론 시 제어를 가능하게 한다.

실험 결과

연구 질문

RQ1 기하학적으로 의식 및 노름 보존 회전이 LM 제어 과제에서 가법적 활성화 제어보다 성능을 더 낼 수 있는가?
RQ2 신뢰 게이트가 있는 지오데식 회전이 다지선다 정확도와 개방형 생성 품질을 LM 계열 전반에서 개선하는가?
RQ3 활성화 방향이 진실성 신호의 주요 전달자인가(크기보다 방향이 핵심인가) — 구면 Steering의 타당성을 입증하는가?
RQ4 다중 레이어 Steering이 정확도와 생성 품질에 어떤 영향을 주며 최적의 레이어 전략은 무엇인가?
RQ5 구면 Steering이 인-context 학습 및 다른 프롬프트 기법과 얼마나 잘 보완하는가?

주요 결과

Spherical Steering은 LLaMA-3.1-8B-Instruct에서 평균 다지선다 정확도를 최대 +11.09%, Qwen-2.5-7B-Instruct에서 +5.31% 개선하여 최적 가법 baselines 대비 우수한 성능을 보였다.
이 방법은 Pareto 개선을 달성하여 TRUE × INFO 점수를 높이고 생성 품질도 향상시키며, 생성 품질을 악화시키는 가법 방법과 달리 제약이 없다.
노름 보존 회전은 가법 편집보다 붕괴 효율이 높아 유사한 표현 저하 수준에서 더 큰 정확도 이득을 제공한다.
vMF 기반 신뢰 게이팅은 입력에 따라 Steering을 어댑트하게 가능하게 하여 높은 Steering 강도에서도 생성 품질을 유지한다.
다중 레이어 Steering은 생성 정보량(INFO)에서 더 큰 이득을 주는 반면 MC 정확도는 소폭 상승에 그치고, 몇 개의 레이어를 넘으면 효과가 감소한다.
Spherical Steering은 few-shot in-context learning과 보완적으로 작용하여 ICL 위에 상당한 이득을 제공하되 생성된 콘텐츠를 방해하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.