Skip to main content
QUICK REVIEW

[논문 리뷰] Curveball Steering: The Right Direction To Steer Isn't Always Linear

Shivam Raval, Hae Jin Song|arXiv (Cornell University)|2026. 03. 10.
Topic Modeling인용 수 0
한 줄 요약

Curveball steering은 다항 커널 PCA를 사용하여 LLM을 비선형 활성화 매니폴드를 따라 조종하고, 활성화 기하가 특히 매우 곡선일 때 선형 스티어링보다 더 우수하게 만듭니다.

ABSTRACT

Activation steering is a widely used approach for controlling large language model (LLM) behavior by intervening on internal representations. Existing methods largely rely on the Linear Representation Hypothesis, assuming behavioral attributes can be manipulated using global linear directions. In practice, however, such linear interventions often behave inconsistently. We question this assumption by analyzing the intrinsic geometry of LLM activation spaces. Measuring geometric distortion via the ratio of geodesic to Euclidean distances, we observe substantial and concept-dependent distortions, indicating that activation spaces are not well-approximated by a globally linear geometry. Motivated by this, we propose "Curveball steering", a nonlinear steering method based on polynomial kernel PCA that performs interventions in a feature space, better respecting the learned activation geometry. Curveball steering consistently outperforms linear PCA-based steering, particularly in regimes exhibiting strong geometric distortion, suggesting that geometry-aware, nonlinear steering provides a principled alternative to global, linear interventions.

연구 동기 및 목표

  • LLMs의 활성화 공간이 비유클리드 기하를 나타내고 Linear Representation Hypothesis에 도전한다는 것을 동기 부여한다.
  • 다항 커널 PCA를 기반으로 하는 비선형의 기하-의식적 스티어링 방법인 Curveball 스티어링을 제안한다.
  • 여러 모델과 행동 특성에 걸쳐 Curveball을 선형 스티어링과 비교해 경험적으로 검증한다.
  • 활성화 매니폴드를 기하학적으로 분석하여 커널 기반 스티어링이 언제 선형 방법을 능가하는지 캐릭터라이즈한다.

제안 방법

  • 활성화 공간의 기하를 VAEs 앙상블에서 학습된 풀백 메트릭스를 사용해 거리의 지오데식 거리와 유클리드 거리를 측정하여 평가한다.
  • 활성화 공간의 선형성 테스트를 위해 왜곡 비율 R = d_geo/d_Euc를 정의하고 계산한다.
  • 다항 커널(차수 2 또는 3)을 갖는 KPCA 공간에서 작동하고 커널 프리이미지 재구성을 사용해 활성화 공간으로 다시 매핑하는 Curveball 스티어링을 개발한다.
  • 활성화를 KPCA 공간으로 투영해 클래스 평균을 이용한 스티어링 벡터를 얻고; 커널 공간에서 스티어링을 적용하며 학습된 매니폴드에 직교한 활성화 잔차를 보존하며 되돌려 재구성한다.
  • Curveball 스티어링을 선형 스티어링의 비선형 일반화로 보고, p = 1(선형 커널)일 때 선형 PCA로 축소된다.
Figure 1 : Overview of Curveball steering and empirical results. A Through the nonlinear mapping $\phi$ a linear path between Classes A and B in kernel space corresponds to a nonlinear trajectory in the original activation space. This is our Curveball steering method. Empirical evaluation across two
Figure 1 : Overview of Curveball steering and empirical results. A Through the nonlinear mapping $\phi$ a linear path between Classes A and B in kernel space corresponds to a nonlinear trajectory in the original activation space. This is our Curveball steering method. Empirical evaluation across two

실험 결과

연구 질문

  • RQ1LLM의 활성화 공간이 선형 스티어링을 약화시키는 비유클리드 기하를 보이는가?
  • RQ2다항 KPCA를 통한 비선형, 기하 의식적 스티어링이 선형 방향보다 LLM 행동 제어를 개선할 수 있는가?
  • RQ3Curveball의 성능은 활성화 매니폴드의 곡률과 스티어링 강도에 따라 어떻게 달라지는가?
  • RQ4Curveball 스티어링이 모델 계열 및 행동 개념 전반에서 견고한가?
  • RQ5Curveball이 선형 스티어링보다 우수한 지점을 설명하는 기하학적 요인은 무엇인가?

주요 결과

ConceptLlama-3.2-1B-It (Linear)Llama-3.2-1B-It (Curveball)Phi-3.5-mini-It (Linear)Phi-3.5-mini-It (Curveball)
자기 인식14%24%0.6%25.4%
부의 추구15%28%2.3%6.7%
권력 추구16%47%2.9%14.9%
교정 가능21%17%2.1%93.4%
유머러스한54.928.28575
무례함85.726.161.0100
흥분41.437.990.090.0
슬픔15.419.585100
  • 활성화 공간은 상당한 기하학적 왜곡(R > 1)과 개념 의존적 왜곡을 보이며 선형 가설에 도전한다.
  • Curveball 스티어링은 특히 곡률이 높은 구간에서 선형 스티어링을 지속적으로 능가하고 여러 모델에서 다양한 행동의 스티어링을 개선한다.
  • 합성 곡선 매니폴드에서 Curveball은 접도 공간 편차를 더 낮추고 선형 스티어링보다 목표 거리에서 경쟁력 있거나 더 큰 성과를 달성하며 곡률 κ가 증가함에 따라 더욱 두드러진다.
  • 실제 모델(Llama-3.2-1B-Instruct 및 Phi-3.5-mini-Instruct)에서 Curveball은 대부분의 개념(예: 권력 추구, 자기 인식, 부의 추구 등)에서 더 큰 행동 변화와 여러 경우에서 더 높은 특성 점수를 보이며 일부 예외도 있다.
  • Curveball은 주변 공간에서 스티어링 크기를 적응시키고 다모드, 지역적으로 변경하는 스티어링 방향을 드러내어 선형 방법으로 포착되지 않는 기하 의식적 적응을 보여준다.
Figure 2 : Evidence of geometric distortions in LLM activation spaces. (a) Illustration of Euclidean distance $d_{\mathrm{Eucl}}$ versus geodesic distance $d_{\mathrm{geo}}$ on a curved manifold, motivating the distortion ratio $R=d_{\mathrm{geo}}/d_{\mathrm{Euc}}$ . (b) Empirical distributions of d
Figure 2 : Evidence of geometric distortions in LLM activation spaces. (a) Illustration of Euclidean distance $d_{\mathrm{Eucl}}$ versus geodesic distance $d_{\mathrm{geo}}$ on a curved manifold, motivating the distortion ratio $R=d_{\mathrm{geo}}/d_{\mathrm{Euc}}$ . (b) Empirical distributions of d

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.