[논문 리뷰] Reasoning Beyond Chain-of-Thought: A Latent Computational Mode in Large Language Models
해당 논문은 Sparse Autoencoders를 통해 LLM에서 소수의 잠재 특징을 식별하고, 이러한 특징에 대한 표적 조정이 명시적 Chain-of-Thought 프롬프트 없이 다단계 추론을 유발하거나 강화할 수 있음을 보이며, 경우에 따라 CoT 성능과 일치하거나 이를 능가한다.
Chain-of-Thought (CoT) prompting has improved the reasoning performance of large language models (LLMs), but it remains unclear why it works and whether it is the unique mechanism for triggering reasoning in large language models. In this work, we study this question by directly analyzing and intervening on the internal representations of LLMs with Sparse Autoencoders (SAEs), identifying a small set of latent features that are causally associated with LLM reasoning behavior. Across multiple model families and reasoning benchmarks, we find that steering a single reasoning-related latent feature can substantially improve accuracy without explicit CoT prompting. For large models, latent steering achieves performance comparable to standard CoT prompting while producing more efficient outputs. We further observe that this reasoning-oriented internal state is triggered early in generation and can override prompt-level instructions that discourage explicit reasoning. Overall, our results suggest that multi-step reasoning in LLMs is supported by latent internal activations that can be externally activated, while CoT prompting is one effective, but not unique, way of activating this mechanism rather than its necessary cause.
연구 동기 및 목표
- LLM의 다단계 추론이 명시적 CoT 프롬프트를 넘어서는 잠재적 내부 메커니즘과 연결되어 있는지 조사한다.
- 두 단계 SAE 기반 파이프라인을 사용하여 추론과 관련된 잠재 특징을 식별한다.
- 다수의 모델과 벤치마크에서 특정 잠재 조정이 추론 정확도에 미치는 인과적 효과를 보여준다.
제안 방법
- 두 단계 파이프라인을 사용한다: (i) 토큰 활성화를 사전 학습된 Sparse Autoencoder(SAE)를 통해 투영하여 희소 잠재 특징을 얻는 특징 발견; (ii) 생성의 첫 번째 단계에 표적 잠재 조정을 주입하여 인과적 검증을 수행한다.
- 초기 생성 단계에서 잠재 특징을 집계하고, 직접 프롬프트와 CoT 프롬 prompting 하에서의 활성화를 비교하여 추론 관련 특징을 식별한다.
- 선정된 잠재 특징에 선형 가산형(pre-activation) 조정을 적용한 다음 재구성 바이어스를 최소화하기 위해 잔차 주입을 수행한다.
- 훈련 데이터에서 단일 특징 교란으로 개입 민감도를 평가하고, 보류된 테스트 세트에서의 효과를 확인한다.
- 생성 시간과 지연을 평가: 생성 초기의 조정이 더 효과적인 경향이 있으며, 특징이 일찍 정점에 도달했다가 이후 소멸한다.
- 모델 패밀리(최대 70B) 전반에 걸쳐 조정과 CoT 프롬 prompting을 비교하여, 조정된 직접 프롬 prompting가 더 적은 토큰으로 CoT 성능에 필적하거나 이를 능가할 수 있음을 보인다.
실험 결과
연구 질문
- RQ1잠재 내부 특징을 조정하여 명시적 CoT 프롬프트 없이 추론의 잠재 내부 메커니즘을 촉발할 수 있는가?
- RQ2조정을 통해 활성화될 때 추론 정확도를 향상시키는 작고 인과적으로 영향력 있는 잠재 특징이 존재하는가?
- RQ3모델 규모에 걸쳐 정확도와 토큰 효율성 면에서 잠재 조정이 Chain-of-Thought 프롬 prompting과 어떻게 비교되는가?
- RQ4생성 중 언제 조정이 최대 효과를 발휘하며, 프롬프트 수준의 지시를 대체하는가?
- RQ5조정 효과가 프롬프트 스타일과 모델 계열 전반에 걸쳐 일반화되는가?
주요 결과
- SAE가 식별한 소수의 잠재 특징 집합이 추론 행동과 인과적으로 연관되어 있다.
- 생성의 첫 단계에서 단일 잠재 특징을 조정하면 여러 벤치마크에서 추론 정확도를 CoT 프롬 prompting과 맞추거나 능가하도록 향상시킬 수 있다.
- 잠재 조정은 특히 대형 모델에서 명시적 CoT보다 더 짧은 추론 흔적을 자주 생성한다.
- 추론 지향 내부 상태가 생성 초기에 트리거되며 명시적 추론을 지양하는 프롬프트를 무력화할 수 있다.
- 초기의 표적화된 개입이 늦거나 광범위한 활성화보다 더 효과적이다.
- 6개 모델 패밀리(최대 70B)에서 조정은 GSM8K, GPQA, BBH 벤치마크에서 견고한 개선을 보였으며, 다단계 추론에의 의존도에 따라 과제별 효과가 달라진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.