QUICK REVIEW

[논문 리뷰] Towards Understanding Steering Strength

Magamed Taimeskhanov, Samuel Vaiter|arXiv (Cornell University)|2026. 02. 02.

Artificial Intelligence in Healthcare and Education인용 수 0

한 줄 요약

논문은 LLM에서 활성화 스티어링의 강도에 대한 이론적 분석을 제시하고, 스티어링의 크기가 다음 토큰 확률, 개념의 존재 여부, 그리고 교차 엔트로피에 미치는 영향을 이론적 결과와 다양한 모델에 대한 실증적 검증으로 보여준다.

ABSTRACT

A popular approach to post-training control of large language models (LLMs) is the steering of intermediate latent representations. Namely, identify a well-chosen direction depending on the task at hand and perturbs representations along this direction at inference time. While many propositions exist to pick this direction, considerably less is understood about how to choose the magnitude of the move, whereas its importance is clear: too little and the intended behavior does not emerge, too much and the model's performance degrades beyond repair. In this work, we propose the first theoretical analysis of steering strength. We characterize its effect on next token probability, presence of a concept, and cross-entropy, deriving precise qualitative laws governing these quantities. Our analysis reveals surprising behaviors, including non-monotonic effects of steering strength. We validate our theoretical predictions empirically on eleven language models, ranging from a small GPT architecture to modern models.

연구 동기 및 목표

스티어링 강도 α가 다음-토큰 예측에서의 스티어링 효율성 및 왜곡 사이의 무역을 어떻게 제어하는지 조사한다.
스티어링이 다음-토큰 확률, 개념 존재, 교차 엔트로피에 미치는 영향을 특징짓기 위한 이론적 프레임워크를 개발한다.
실용적인 LLM 제어를 위한 스티어링 강도의 적응적이거나 최적의 조정에 대한 통찰력을 제공한다.
다양한 언어 모델에 대한 이론 예측과 실증적 검증을 연결한다.
차이-평균 스티어링 벡터가 개념 중심 프롬프트와 상호 작용하는 방식을 명확히 한다.

제안 방법

스티어링 벡터 v를 평균 맥락 임베딩의 차이로 정의하여 스티어링을 해석적으로 연구하는 간소화된 Unconstrained Features Model (UFM)을 사용한다.
이 프레임워크에서 다음-토큰 확률, 개념 확률, 그리고 교차 엔트로피를 정의하고 스티어링 강도 α에 대한 의존성을 도출한다.
스티어링 효과를 분리하기 위한 가정들을 도입한다. 예를 들어 완전히 학습된 학습 분포와 서로 다른 개념 부분집합을 갖는 데이터셋을 포함한다.
스티어링하에 토큰 수준과 개념 수준의 양 변화, 로그-오즈 및 확률 변화 등을 분석한다.
큰 α 한계 및 교차 엔트로피의 국소 제곱근 거동 분석을 통해 성능 저하를 이해한다.
열한 개의 언어 모델에 대해 이론적 결과를 실증적으로 검증한다. 이는 작은 GPT 유사 모델에서 현대 LLM에 이르기까지 포함한다.

Figure 3 : Next-token probability increases $\Delta p(\alpha)$ for a fixed context. Each curve corresponds to a token $z$ : target tokens $\mathcal{T}$ are in blue and off-target tokens in orange . Most target tokens exhibit a “bump” (peaking at $\alpha_{(1,1)}$ ), while one target token increases a

실험 결과

연구 질문

RQ1스티어링 강도 α가 개념 방향으로 스티어링될 때 다음-토큰 확률에 양적으로 어떤 영향을 미치는가?
RQ2타깃 개념의 존재와 비타깃 개념의 억제가 모델 출력에서 어떻게 달라지는가?
RQ3스티어링 하에서 교차 엔트로피의 국소적 및 큰 α 거동은 어떠하며, 이를 통해 최적의 α 선택은 어떻게 안내되는가?
RQ4이론적 예측이 서로 다른 규모와 아키텍처의 모델에서 실증적으로 타당한가?

주요 결과

스티어링 강도 α는 토큰 확률에 버프 패턴을 만들어, 대부분의 토큰은 유한한 α에서 피크를 보이다가 α가 커짐에 따라 사라진다.
타깃이 아닌 토큰은 타깃 토큰보다 먼저 피크를 형성하여, 스티어링이 출력 품질을 무너뜨리지 않으면서 타깃 개념에 집중되는 창을 가능하게 한다.
개념 수준의 스티어링 신호는 타깃 개념에 대해 시그모이드 증가를 보이고 비타깃 개념에 대해 보완적인 감소를 보이며, tanh 유사한 반응과 일치한다.
교차 엔트로피는 α에 대해 국소적으로 제곱적으로 증가하여, 개념 존재가 증가하더라도 스티어링이 전반적 성능을 악화시키는 트레이드오프를 나타낸다.
큰 α 영역에서 모델 출력은 최대 로그 오즈를 갖는 토큰들에 집중되며, 이론적 한계 및 실증 관측과 일치한다.
열한 개의 모델에 대한 실증 검증은 알파가 확률과 개념 존재에 미치는 예측된 정성적 행동을 확인시켜 준다.

Figure 4 : Concept probability increases $\Delta p(\mathcal{C}\mid\alpha)$ predicted by Th. 3.6 : the target concept $\color[rgb]{0,0,1}\definecolor[named]{pgfstrokecolor}{rgb}{0,0,1}\Delta p(\mathcal{T}\mid\alpha)$ increases with a sigmoidal shape, an off-target $\color[rgb]{0.95,0.675,0.725}\defin

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.