Skip to main content
QUICK REVIEW

[論文レビュー] S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs

Yanrui Du, Sendong Zhao|arXiv (Cornell University)|Feb 2, 2026
Topic Modeling被引用数 0
ひとこと要約

S3-CoT は自己サンプリングフレームワークを導入し、活性化誘導を用いてターゲット LLM から可変長で高品質な CoT トレースを取得し、外部教師なしでの CoT 学習を効率化し、一般型および一部の R1 風 LLM で長さと精度のトレードオフを強く示す。

ABSTRACT

Large language models (LLMs) equipped with chain-of-thought (CoT) achieve strong performance and offer a window into LLM behavior. However, recent evidence suggests that improvements in CoT capabilities often come with redundant reasoning processes, motivating a key question: Can LLMs acquire a fast-thinking mode analogous to human System 1 reasoning? To explore this, our study presents a self-sampling framework based on activation steering for efficient CoT learning. Our method can induce style-aligned and variable-length reasoning traces from target LLMs themselves without any teacher guidance, thereby alleviating a central bottleneck of SFT-based methods-the scarcity of high-quality supervision data. Using filtered data by gold answers, we perform SFT for efficient CoT learning with (i) a human-like dual-cognitive system, and (ii) a progressive compression curriculum. Furthermore, we explore a self-evolution regime in which SFT is driven solely by prediction-consistent data of variable-length variants, eliminating the need for gold answers. Extensive experiments on math benchmarks, together with cross-domain generalization tests in medicine, show that our method yields stable improvements for both general and R1-style LLMs. Our data and model checkpoints can be found at https://github.com/DYR1/S3-CoT.

研究の動機と目的

  • 効率的で簡潔なチェーン・オブ・ソウト(CoT) LLM のデータ不足ボトルネックに対処する。
  • 対象 LLM から教師なしで可変長・スタイル整合の CoT トレースを誘導する方法を学習する。
  • 自己教師あり微調整と進行的圧縮カリキュラムを通じて効率的な CoT を内在化する。
  • 予測一致性がゴールド回答なしでも成り立つ自己進化レジームを探る。
  • 数学と異分野の医療ベンチマークで一般 LLM および R1 風 LLM に対する堅牢性を示す。

提案手法

  • CoT 長さを支配する可変長方向(VL-D)を LLM 表現に特定し、活性化誘導を用いて長さを制御する。
  • 選択した層で VL-D に介入し、制御された強さで可変長 CoT トレースをターゲット LLM からサンプリングする。
  • データの品質をゴールド回答の一致または可変長 CoT 変種間の自己整合性のいずれかで検証する。
  • デュアル・認知システム(System 1 と System 2 のプロンプト)と進行的圧縮カリキュラムを用いて高速思考 CoT を学習する。
  • オプションとして、SFT データがゴールド回答なしでも予測一致となる完全自己進化版(S3-CoT sc)を採用する。
Figure 1: A self-sampling framework for efficient CoT learning. Our study (1) samples variable-length CoT data via intervention along VL-D; (2) filters data via answer or self-consistency verification; and (3) achieves efficient CoT internalization via a dual-cognitive system and progressive compres
Figure 1: A self-sampling framework for efficient CoT learning. Our study (1) samples variable-length CoT data via intervention along VL-D; (2) filters data via answer or self-consistency verification; and (3) achieves efficient CoT internalization via a dual-cognitive system and progressive compres

実験結果

リサーチクエスチョン

  • RQ1CoT 長さを制御できる長さ方向性の線形表現が LLM 表現に存在し、CoT 長さを調整できるか。
  • RQ2この方向に沿った介入によって高品質な可変長 CoT データをどのようにサンプリングできるか。
  • RQ3自己サンプリングデータが異なる LLM ファミリー全体で効率的・頑健な CoT 内化を可能にするか。
  • RQ4自己整合性検証がデータ品質と下流パフォーマンスに与える影響は何か。

主な発見

  • 中間層に長さ制御型の線形方向(VL-D)が出現し、サンプル間でも CoT 長さの方向性が並行して得られる。
  • 自己整合性検証により、複数の LLM でサンプリングデータのほぼ完璧な精度が得られ、ゴールドラベルなしでも高いデータ品質を示す場合が多いことを示す。
  • S3-CoT は、数理ベンチマークと一般 LLM でプロンプト制御および SFT ベースのベースラインに対する長さと精度のトレードオフを大幅に改善し、RL ベースのベースラインと競合する。
  • S3-CoT は一般 LLM と R1 風 LLM の両方で数学・医療ベンチマークに対して適応性と堅牢な性能を示す。
  • 完全に自己進化する variant S3-CoT sc は大きな潜在力を示し、CoT 学習の自己教師データの実現可能性を確認する。
(a) Analysis on Qwen2.5 7B .
(a) Analysis on Qwen2.5 7B .

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。