[論文レビュー] S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs
S3-CoT は自己サンプリングフレームワークを導入し、活性化誘導を用いてターゲット LLM から可変長で高品質な CoT トレースを取得し、外部教師なしでの CoT 学習を効率化し、一般型および一部の R1 風 LLM で長さと精度のトレードオフを強く示す。
Large language models (LLMs) equipped with chain-of-thought (CoT) achieve strong performance and offer a window into LLM behavior. However, recent evidence suggests that improvements in CoT capabilities often come with redundant reasoning processes, motivating a key question: Can LLMs acquire a fast-thinking mode analogous to human System 1 reasoning? To explore this, our study presents a self-sampling framework based on activation steering for efficient CoT learning. Our method can induce style-aligned and variable-length reasoning traces from target LLMs themselves without any teacher guidance, thereby alleviating a central bottleneck of SFT-based methods-the scarcity of high-quality supervision data. Using filtered data by gold answers, we perform SFT for efficient CoT learning with (i) a human-like dual-cognitive system, and (ii) a progressive compression curriculum. Furthermore, we explore a self-evolution regime in which SFT is driven solely by prediction-consistent data of variable-length variants, eliminating the need for gold answers. Extensive experiments on math benchmarks, together with cross-domain generalization tests in medicine, show that our method yields stable improvements for both general and R1-style LLMs. Our data and model checkpoints can be found at https://github.com/DYR1/S3-CoT.
研究の動機と目的
- 効率的で簡潔なチェーン・オブ・ソウト(CoT) LLM のデータ不足ボトルネックに対処する。
- 対象 LLM から教師なしで可変長・スタイル整合の CoT トレースを誘導する方法を学習する。
- 自己教師あり微調整と進行的圧縮カリキュラムを通じて効率的な CoT を内在化する。
- 予測一致性がゴールド回答なしでも成り立つ自己進化レジームを探る。
- 数学と異分野の医療ベンチマークで一般 LLM および R1 風 LLM に対する堅牢性を示す。
提案手法
- CoT 長さを支配する可変長方向(VL-D)を LLM 表現に特定し、活性化誘導を用いて長さを制御する。
- 選択した層で VL-D に介入し、制御された強さで可変長 CoT トレースをターゲット LLM からサンプリングする。
- データの品質をゴールド回答の一致または可変長 CoT 変種間の自己整合性のいずれかで検証する。
- デュアル・認知システム(System 1 と System 2 のプロンプト)と進行的圧縮カリキュラムを用いて高速思考 CoT を学習する。
- オプションとして、SFT データがゴールド回答なしでも予測一致となる完全自己進化版(S3-CoT sc)を採用する。

実験結果
リサーチクエスチョン
- RQ1CoT 長さを制御できる長さ方向性の線形表現が LLM 表現に存在し、CoT 長さを調整できるか。
- RQ2この方向に沿った介入によって高品質な可変長 CoT データをどのようにサンプリングできるか。
- RQ3自己サンプリングデータが異なる LLM ファミリー全体で効率的・頑健な CoT 内化を可能にするか。
- RQ4自己整合性検証がデータ品質と下流パフォーマンスに与える影響は何か。
主な発見
- 中間層に長さ制御型の線形方向(VL-D)が出現し、サンプル間でも CoT 長さの方向性が並行して得られる。
- 自己整合性検証により、複数の LLM でサンプリングデータのほぼ完璧な精度が得られ、ゴールドラベルなしでも高いデータ品質を示す場合が多いことを示す。
- S3-CoT は、数理ベンチマークと一般 LLM でプロンプト制御および SFT ベースのベースラインに対する長さと精度のトレードオフを大幅に改善し、RL ベースのベースラインと競合する。
- S3-CoT は一般 LLM と R1 風 LLM の両方で数学・医療ベンチマークに対して適応性と堅牢な性能を示す。
- 完全に自己進化する variant S3-CoT sc は大きな潜在力を示し、CoT 学習の自己教師データの実現可能性を確認する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。