Skip to main content
QUICK REVIEW

[논문 리뷰] The Information Geometry of Softmax: Probing and Steering

Kiho Park, Todd Nief|arXiv (Cornell University)|2026. 02. 17.
Computability, Logic, AI Algorithms인용 수 0
한 줄 요약

본 논문은 softmax 기반 표현의 자연 기하가 정보 기하학(information geometry)이며(Bregman 이중성 프레임워크), 선형 프로브를 통해 개념을 강건하게 조종하기 위한 듀얼 스티어링을 도입하고 비표적 분포를 보존한다고 주장한다. 이론과 실험을 제시하여 듀얼 스티어링이 의미 불변성을 유지하는 데 유클리드 스티어링보다 우수함을 보인다.

ABSTRACT

This paper concerns the question of how AI systems encode semantic structure into the geometric structure of their representation spaces. The motivating observation of this paper is that the natural geometry of these representation spaces should reflect the way models use representations to produce behavior. We focus on the important special case of representations that define softmax distributions. In this case, we argue that the natural geometry is information geometry. Our focus is on the role of information geometry on semantic encoding and the linear representation hypothesis. As an illustrative application, we develop "dual steering", a method for robustly steering representations to exhibit a particular concept using linear probes. We prove that dual steering optimally modifies the target concept while minimizing changes to off-target concepts. Empirically, we find that dual steering enhances the controllability and stability of concept manipulation.

연구 동기 및 목표

  • softmax 기반 표현에서 의미 인코딩에 대한 기하학적 정합(view) 필요성을 제기한다.
  • softmax로 유도된 기하가 풍부한 원시-이중 구조를 갖는 Bregman(듀얼리 플랫) 기하임을 확립한다.
  • 원시 공간과 이중 공간의 보간 경로를 분석하고 KL 발산 최소화와 연결한다.
  • 타깃 개념을 수정하되 비표적 변화는 최소화하는 강건한 방법으로 듀얼 스티어링을 도입한다.
  • 오픈 소스 모델(LLMs 및 CLIP)에 대해 듀얼 스티어링을 유클리드 스티어링과 대조하여 경험적으로 검증한다.

제안 방법

  • 소프트맥스 분포 간의 KL 발산을 로그 정규화자 A에 의해 생성되는 Bregman 발산으로 특성화한다.
  • A 및 A*에 대해 원시 좌표와 이중 좌표를 정의하고 표현과 그 이중 간의 일대일 대응을 확립한다.
  • 원시(e-geodesic) 및 이중(m-geodesic) 보간을 설명하고 각각을 역 KL 최소화와 순방향 KL 최소화와 연계한다.
  • 듀얼 스티어링을 제안한다: 이중 공간의 선형 프로브 증가를 통해 업데이트하여 타깃 개념의 변화는 보장하고 비표적 분포는 보존한다.
  • 이중 공간에서 업데이트할 때 순위 결핍 및 제약 문제를 다루기 위한 정규화된 Newton 기반 알고리즘을 제시한다.
  • 타깃 개념 확률과 비표적 보존을 추적하는 지표를 사용하여 Gemma-3-4B 및 MetaCLIP-2에서 스티어링을 평가한다.
Figure 1 : Dual steering (bottom) effectively modifies the target concept (e.g., $\texttt{verb}\Rightarrow\texttt{third-person}$ or $\texttt{cat}\Rightarrow\texttt{dog}$ ) while preserving off-target distributions (e.g., $P(\text{``maintain''})+P(\text{``maintains''})$ or $P(\text{``cat + bicycle''}
Figure 1 : Dual steering (bottom) effectively modifies the target concept (e.g., $\texttt{verb}\Rightarrow\texttt{third-person}$ or $\texttt{cat}\Rightarrow\texttt{dog}$ ) while preserving off-target distributions (e.g., $P(\text{``maintain''})+P(\text{``maintains''})$ or $P(\text{``cat + bicycle''}

실험 결과

연구 질문

  • RQ1정보 기하학은 softmax 기반 모델의 표현 공간을 어떻게 해석하는가?
  • RQ2의미적 결과 측면에서 원시 보간과 이중 보간의 차이는 무엇이며(AND형 대 OR형 동작)?
  • RQ3듀얼 스티어링이 유클리드 스티어링에 비해 비표적 개념에 최소한의 교란으로 타깃 개념을 수정할 수 있는가?
  • RQ4이중 공간 제약과 순위 결함 가능성을 고려할 때 듀얼 스티어링을 실제로 어떻게 구현할 수 있는가?
  • RQ5LLM과 CLIP에 대한 실증 결과가 듀얼 스티어링의 이론적 이점을 유클리드 스티어링보다 뒷받침하는가?

주요 결과

  • 듀얼 기하학(Bregman, 원시-이중 구조 포함)이 softmax 표현의 의미 인코딩을 지배한다.
  • 원시 보간은 높은 확률 영역의 교차점(AND 유사)을 포착하는 경향이 있고, 이중 보간은 영역의 합집합(OR 유사)을 산출한다.
  • 듀얼 스티어링은 비표적 분포의 최소 변화로 타깃 개념을 강건하게 이동시키며, 유클리드 스티어링보다 우수하다.
  • Hessian의 랭크 결핍에도 불구하고 실용적인 듀얼 스티어링을 가능하게 하는 정규화된 Newton 접근법은 언임베딩의 볼록 껍질(convex hull) 내에서의 가능성을 보존한다.
  • Gemma-3-4B 및 MetaClip-2에 대한 실증 결과는 듀얼 스티어링이 다양한 지표에서 비표적 분포를 더 잘 보존하면서 타깃 개념 확률을 높임을 보여준다.
Figure 2 : Primal interpolation emphasizes the shared structure (intersection) of distributions, whereas dual interpolation results in a linear mixture. We visualize output probability changes along interpolation paths between two context embeddings $\lambda(x_{0})$ and $\lambda(x_{1})$ . The dual i
Figure 2 : Primal interpolation emphasizes the shared structure (intersection) of distributions, whereas dual interpolation results in a linear mixture. We visualize output probability changes along interpolation paths between two context embeddings $\lambda(x_{0})$ and $\lambda(x_{1})$ . The dual i

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.