QUICK REVIEW

[논문 리뷰] GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients

Kentaro Kazama, Daiki Shirafuji|arXiv (Cornell University)|2026. 01. 15.

Topic Modeling인용 수 0

한 줄 요약

GeoSteer가 학습된 잠재 매니폴드를 따라 LLM의 숨겨진 상태를 조종하여 중간 추론의 일관성과 신뢰성을 개선하고 최종 답변 정확도를 해치지 않도록 함. Qwen3 모델과 VAE 기반 잠재 공간에서 GSM8k로 시연.

ABSTRACT

Recent advances in Large Language Models (LLMs) have demonstrated remarkable progress in their reasoning capabilities, such as Chain-of-Thought (CoT). Most approaches rely on CoT rationales. Previous studies have shown that LLMs often generate logically inconsistent reasoning steps even when their final answers are correct. These inconsistencies reduce the reliability of the reasoning process. We propose GeoSteer, a manifold-based framework that improves the quality of intermediate reasoning. The method consists of: (1) constructing a CoT dataset with step-level scores, (2) training a Variational Autoencoder (VAE) model and a quality estimation model to learn a low-dimensional manifold of high-quality CoT trajectories, and (3) steering hidden states of target LLMs toward higher-quality regions in the latent space. This last step enables steering of the hidden states by following gradients along the learned manifold. It facilitates geometrically coherent steering. Evaluation experiments were conducted on the GSM8k dataset using the Qwen3 series. We evaluated performance using two metrics: answer accuracy and overall reasoning quality. GeoSteer improved the accuracy by 0.9 points and enhanced the reasoning quality by 4.5 points on average, compared with those of original LLMs. These results indicate that GeoSteer improves an effective and controllable mechanism for improving the quality of intermediate reasoning in LLMs.

연구 동기 및 목표

중간 CoT 추론 품질의 신뢰할 수 있는 평가와 제어 필요성을 최종 답변 이상으로 동기화합니다.
숨겨진 상태를 고품질 CoT 영역으로 이끄는 매니폴드 기반 활성화 조정 방법을 제안합니다.
높은 품질의 CoT 궤적 데이터셋을 구축하고 VAE와 품질 예측기를 이용해 잠재 매니폴드를 학습합니다.
추론 시간에 latent 공간의 그래디언트를 이용해 숨겨진 상태를 당겨 추론의 일관성을 높이는 조정을 가능하게 합니다.

제안 방법

고품질 및 저품질 궤적과 단계별 품질 점수를 갖춘 CoT 데이터셋을 만듭니다.
숨겨진 상태에 대해 변분 오토인코더(VAE)를 학습시켜 CoT 궤적의 저차원 잠재 매니폴드를 학습합니다.
잠재 벡터에 대해 differentiable한 품질 함수 Rψ를 학습시켜 추론 품질을 점수화합니다.
추론 시 잠재 벡터 z를 계산하고 인코더 야코비안으로 그래디언트를 숨겨진 상태로 되끌어 h_t를 정규화된 그래디언트 스텝 h'_t = h_t + β ∇_{h_t} Rψ(z_t)/||∇_{h_t} Rψ(z_t)||로 업데이트합니다.

실험 결과

연구 질문

RQ1잠재 공간 조정이 최종 답변 정확도를 손상시키지 않으면서 중간 CoT 추론의 품질과 일관성을 향상시킬 수 있는가?
RQ2기하학적 인식이 있는 매니폴드 기반 조정 방식이 유클리드 공간에서의 선형 활성화 조정보다 추론의 일관성을 유지하는 데 우수한가?

주요 결과

β	Qwen3-0.6B Baseline EM	Qwen3-0.6B Steered EM	Qwen3-1.7B Baseline EM	Qwen3-1.7B Steered EM	Qwen3-4B Baseline EM	Qwen3-4B Steered EM	Qwen3-8B Baseline EM	Qwen3-8B Steered EM
1	60.0	58.7	82.3	82.4	90.6	90.5	90.7	90.4
10	60.0	60.0	82.3	82.9	90.6	90.5	90.7	90.6
50	60.0	58.5	82.3	83.1	90.6	90.3	90.7	90.4
100	60.0	55.0	82.3	83.5	90.6	89.5	90.7	90.8
125	60.0	52.0	82.3	83.5	90.6	89.8	90.7	91.3
150	60.0	50.9	82.3	84.9	90.6	89.8	90.2	91.3
200	60.0	46.2	82.3	84.1	90.6	89.9	90.7	91.4
300	60.0	28.7	82.3	84.7	90.6	88.9	90.7	91.3

GeoSteer는 모델 규모에 따라 최종 답변 정확도를 작은 폭으로 향상시키며(일부 Qwen3 크기에서 β 설정에 따라 EM 증가 관찰),
조정된 모델은 모든 모델 규모에서 기본선에 비해 쌍대 평가에서 일관되게 선호됩니다(GPT-4o 기준).
조정은 여러 구성에서 추론 품질(일관성, 구성, 단계별 일관성)을 향상시키는 경향이 있으며 EM은 최소 또는 무손실에 가깝게 유지됩니다.
잠재 공간 궤적은 주요 추론 전이 지점에서 의미론적으로 의미 있는 변화들을 보이며, 이는 조정이 표면 텍스트가 아닌 내부 표현에 영향을 준다는 것을 시사합니다.
최적의 조정 강도 β는 모델 용량에 의존하며, 대형 모델에서 중간에서 높은 β 값에서 이점을 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.