QUICK REVIEW

[논문 리뷰] Circuit Fingerprints: How Answer Tokens Encode Their Geometrical Path

Andres Saurez, Neha Sengar|arXiv (Cornell University)|2026. 02. 10.

Advanced Graph Neural Networks인용 수 0

한 줄 요약

논문은 정답 토큰이 생성 회로의 기하학적 경로를 트랜스포머 활성화 공간에 암호화한다고 제안합니다. 읽기/쓰기 이중성: 정답 토큰 방향으로 회로 구조를 읽고 같은 방향으로 모델 행동을 조정함으로써 그라디언트 없이 경쟁력 있는 회로 발견과 효과적인 감정 제어를 달성합니다.

ABSTRACT

Circuit discovery and activation steering in transformers have developed as separate research threads, yet both operate on the same representational space. Are they two views of the same underlying structure? We show they follow a single geometric principle: answer tokens, processed in isolation, encode the directions that would produce them. This Circuit Fingerprint hypothesis enables circuit discovery without gradients or causal intervention -- recovering comparable structure to gradient-based methods through geometric alignment alone. We validate this on standard benchmarks (IOI, SVA, MCQA) across four model families, achieving circuit discovery performance comparable to gradient-based methods. The same directions that identify circuit components also enable controlled steering -- achieving 69.8\% emotion classification accuracy versus 53.1\% for instruction prompting while preserving factual accuracy. Beyond method development, this read-write duality reveals that transformer circuits are fundamentally geometric structures: interpretability and controllability are two facets of the same object.

연구 동기 및 목표

회로 구성원이 역전파 없이도 정답 토큰 방향과의 기하학적 정렬에서 읽힐 수 있음을 입증한다.
회로 구조를 식별하는 데 사용되는 동일한 방향이 모델 동작의 쓰기/조정에도 사용될 수 있음을 보여준다.
특징 회로가 활성화 공간에 기하학적으로 인코딩되어 해석 가능성과 제어 가능성을 연결한다.
IOI, SVA, MCQA 태스크에서 여러 모델 계열에 걸쳐 검증하고 그래디언트 기반 기준선과 비교한다.

제안 방법

활성화 공간에서 고립된 정답 토큰의 차이(Δr^(L))에서 목표 방향을 추출한다.
잔류 공간 혼동을 피하기 위해 구성 요소의 네이티브 공간에서 구성요소당 정렬을 계산한다(방정식 4, 5).
Q, K, V 채널에 걸친 셰프리 기반 분해를 사용하여 헤드의 가장자리 수준 중요도를 분해한다(방정식 7-9).
역전파를 통한 총 구성요소 중요도를 얻기 위해 직접 기여도와 엣지 기여도를 집계한다(알고리즘 1).
정답 프로토타입으로부터 개입 부분공간을 구성하고 이를 선택된 헤드에 적용하여 기하학적 조정을 시연한다(방정식 11-13).
모델 군에 걸쳐 그래디언트 baselines(EAP, EAP-IG)와 CPR 및 CMD 지표로 회로 발견을 평가한다.

Figure 1: Circuit Fingerprints unifies circuit discovery and activation steering as dual operations—reading and writing—on the same geometric structure encoded in answer token representations.

실험 결과

연구 질문

RQ1정답 토큰은 그래디언트 없이 기하학적 정렬을 통해 이를 생성하는 회로 구성 요소를 드러낼 수 있는가?
RQ2회로 구성 요소를 식별하는 동일한 방향이 모델 출력의 제어 가능한 조정에도 사용될 수 있는가?
RQ3트랜스포머 회로가 활성화 공간에 근본적으로 기하학적 구조로 인코딩되어 읽기-쓰기 이중성을 지원하는가?
RQ4IOI, SVA, MCQA 및 모델 계열에서 기하학적 발견이 견고한가?
RQ5지시나 프롬프트에서 얻은 프롬프트 기반 방향이 태스크별 데이터 없이도 특징별 제어를 가능하게 하는가?

주요 결과

모델	방법	IOI CMD	IOI CPR	SVA CMD	SVA CPR	MCQA CMD	MCQA CPR
GPT2-Small	EAP	0.03	0.97	0.06	0.94	N/A	N/A
GPT2-Small	EAP-IG-inputs	0.03	0.97	0.05	0.95	N/A	N/A
GPT2-Small	CF (ours)	0.06	0.98	0.09	0.91	N/A	N/A
Qwen2.5-0.5B	EAP	0.05	0.95	0.05	0.96	0.06	94.0
Qwen2.5-0.5B	EAP-IG-inputs	0.01	1.00	0.05	0.99	0.05	95.0
Qwen2.5-0.5B	CF (ours)	0.04	0.96	0.06	0.94	0.09	92.0
Llama3.2-1B	EAP	0.02	0.99	0.04	1.00	0.13	0.87
Llama3.2-1B	EAP-IG-inputs	0.01	0.99	0.03	0.98	0.05	95.0
Llama3.2-1B	CF (ours)	0.02	0.99	0.05	0.96	0.13	0.87
OPT-1.3B	EAP	0.01	0.99	0.01	0.99	0.05	0.95
OPT-1.3B	EAP-IG-inputs	0.00	1.50	0.01	1.00	0.04	0.96
OPT-1.3B	CF (ours)	0.01	0.99	0.05	0.95	0.07	0.93

CF는 IOI, SVA, MCQA에서 여러 모델에 대해 그래디언트 기반 기준선(CMD 및 CPR)과 비교할 만큼의 회로 발견을 달성한다.
회로 구성 요소를 식별하는 동일한 방향이 조정도 가능하게 하며, 감정 분류 정확도가 지시 프롬프팅 없이 53.1%에서 69.8%로 향상된다.
셰플리 값에 의한 엣지 수준 분해는 Q/K/V 기여를 명시하고 라우팅 정보에서 선형 합산을 보존한다.
정답 토큰 방향으로의 조정은 활성화 패치와 비교할 만한 인과 효과를 낳으며, 전체 개입 강도에서 정답에 대한 억제를 유사하게 나타낸다.
지시 프롬프트에서 파생된 방향은 감정 및 언어 간의 제어로 일반화되어 읽기-쓰기 일치를 보인다.
더 큰 모델에서 CMD 및 CPR이 더 잘 나타나 개념의 해리에 대한 분리가 개선됨을 시사한다.

Figure 2: Comparison of attention head importance on the IOI task. Top: Per-token identity scores computed with respect to answer token’s attention head outputs (our method). Bottom: Head importance from EAP-IG-inputs (gradient-based). Both methods identify the same critical heads in layers 9–11, wi

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.