[論文レビュー] GeoSteer: Faithful Chain-of-Thought Steering via Latent Manifold Gradients
GeoSteer は learned latent manifold 上で隠れ状態を誘導し、中間の推論品質を改善しつつ最終回答の正確性を損なわないようにする。VAE ベースの潜在空間と勾配ベースのステアリングを用いた Qwen3 モデルで GSM8k に対して実証。
Recent advances in Large Language Models (LLMs) have demonstrated remarkable progress in their reasoning capabilities, such as Chain-of-Thought (CoT). Most approaches rely on CoT rationales. Previous studies have shown that LLMs often generate logically inconsistent reasoning steps even when their final answers are correct. These inconsistencies reduce the reliability of the reasoning process. We propose GeoSteer, a manifold-based framework that improves the quality of intermediate reasoning. The method consists of: (1) constructing a CoT dataset with step-level scores, (2) training a Variational Autoencoder (VAE) model and a quality estimation model to learn a low-dimensional manifold of high-quality CoT trajectories, and (3) steering hidden states of target LLMs toward higher-quality regions in the latent space. This last step enables steering of the hidden states by following gradients along the learned manifold. It facilitates geometrically coherent steering. Evaluation experiments were conducted on the GSM8k dataset using the Qwen3 series. We evaluated performance using two metrics: answer accuracy and overall reasoning quality. GeoSteer improved the accuracy by 0.9 points and enhanced the reasoning quality by 4.5 points on average, compared with those of original LLMs. These results indicate that GeoSteer improves an effective and controllable mechanism for improving the quality of intermediate reasoning in LLMs.
研究の動機と目的
- 信頼性のある評価と中間 CoT 推論品質の最終回答以外の制御の必要性を動機付ける。
- hidden states を高品質な CoT 領域へ導くための manifold ベースの活性化ステアリング手法を提案する。
- 高品質 CoT 軌跡データセットを構築し、VAE と品質予測子を用いて潜在 manifold を学習する。
- 推論時に潜在空間の勾配に沿って hidden states を引き戻すことで推論時のステアリングを可能にし、推論の一貳の整合性を向上させる。
提案手法
- 高品質と低品質の軌跡を持つ CoT データセットと段階的品質スコアを作成する。
- Hidden states 上で Variational Autoencoder を訓練し、CoT 軌跡の低次元潜在 manifold を学習する。
- 潜在ベクトルをスコアリングする differentiable quality function Rψ を訓練する。
- 推論時に潜在ベクトル z を計算し、encoder のヤコビ行列を用いて勾配を hidden states に戻し、h_t を正規化された勾配ステップで更新する。 h'_t = h_t + β ∇_h_t Rψ(z_t)/||∇_h_t Rψ(z_t)||。
実験結果
リサーチクエスチョン
- RQ1潜在空間ステアリングは、最終回答の精度を損なうことなく中間 CoT 推論の品質と一貫性を向上させられるか。
- RQ2幾何学を意識した多様体ベースのステアリング手法は、ユークリッド空間での線形の活性化ステアリングより推論の一貫性を維持する点で優れているか。
主な発見
| β | Qwen3-0.6B Baseline EM | Qwen3-0.6B Steered EM | Qwen3-1.7B Baseline EM | Qwen3-1.7B Steered EM | Qwen3-4B Baseline EM | Qwen3-4B Steered EM | Qwen3-8B Baseline EM | Qwen3-8B Steered EM |
|---|---|---|---|---|---|---|---|---|
| 1 | 60.0 | 58.7 | 82.3 | 82.4 | 90.6 | 90.5 | 90.7 | 90.4 |
| 10 | 60.0 | 60.0 | 82.3 | 82.9 | 90.6 | 90.5 | 90.7 | 90.6 |
| 50 | 60.0 | 58.5 | 82.3 | 83.1 | 90.6 | 90.3 | 90.7 | 90.4 |
| 100 | 60.0 | 55.0 | 82.3 | 83.5 | 90.6 | 89.5 | 90.7 | 90.8 |
| 125 | 60.0 | 52.0 | 82.3 | 83.5 | 90.6 | 89.8 | 90.7 | 91.3 |
| 150 | 60.0 | 50.9 | 82.3 | 84.9 | 90.6 | 89.8 | 90.2 | 91.3 |
| 200 | 60.0 | 46.2 | 82.3 | 84.1 | 90.6 | 89.9 | 90.7 | 91.4 |
| 300 | 60.0 | 28.7 | 82.3 | 84.7 | 90.6 | 88.9 | 90.7 | 91.3 |
- GeoSteer はモデルサイズに応じて最大で小さなマージンの改善をもたらし、Qwen3 サイズのいくつかで β 設定時に EM の向上が観察される。
- ステアリングされたモデルはベースラインよりも対比較評価で一貫して好まれる(GPT-4o、モデル規模を超えて)。
- ステアリングは推論の整合性・構造・段階的一貫性を高める傾向があり、複数の構成で EM の低下は最小またはなし。
- 潜在空間の軌道は推論の重要な転換点で意味のある意味的シフトを示しており、ステアリングが表層テキストより内部表現に影響を与えることを示唆する。
- 最適なステアリング強度 β はモデル容量に依存し、より大きなモデルは中〜高い β 値で利益を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。