QUICK REVIEW

[논문 리뷰] S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs

Yanrui Du, Sendong Zhao|arXiv (Cornell University)|2026. 02. 02.

Topic Modeling인용 수 0

한 줄 요약

S3-CoT는 활성화 방향 제어를 사용하여 대상 LLM들로부터 가변 길이의 고품질 CoT 추적을 얻는 자체 샘플링 프레임워크를 도입하여 외부 교사 없이도 효율적인 CoT 학습을 가능하게 하며 일반 및 일부 R1 스타일 LLM에서 길이-정확도 트레이드오프가 강하게 나타남.

ABSTRACT

Large language models (LLMs) equipped with chain-of-thought (CoT) achieve strong performance and offer a window into LLM behavior. However, recent evidence suggests that improvements in CoT capabilities often come with redundant reasoning processes, motivating a key question: Can LLMs acquire a fast-thinking mode analogous to human System 1 reasoning? To explore this, our study presents a self-sampling framework based on activation steering for efficient CoT learning. Our method can induce style-aligned and variable-length reasoning traces from target LLMs themselves without any teacher guidance, thereby alleviating a central bottleneck of SFT-based methods-the scarcity of high-quality supervision data. Using filtered data by gold answers, we perform SFT for efficient CoT learning with (i) a human-like dual-cognitive system, and (ii) a progressive compression curriculum. Furthermore, we explore a self-evolution regime in which SFT is driven solely by prediction-consistent data of variable-length variants, eliminating the need for gold answers. Extensive experiments on math benchmarks, together with cross-domain generalization tests in medicine, show that our method yields stable improvements for both general and R1-style LLMs. Our data and model checkpoints can be found at https://github.com/DYR1/S3-CoT.

연구 동기 및 목표

효율적이고 간결한 CoT LLM을 학습하는 데 있어 데이터 부족 문제를 해결한다.
교사 감독 없이 대상 LLM들로부터 가변 길이의 스타일 정렬된 CoT 흔적을 유도하는 방법을 학습한다.
진행형 압축 커리큘럼을 갖춘 자기 감독 미세조정을 통해 효율적인 CoT를 내재화한다.
골드 답변 없이도 예측 일치성을 갖춘 학습 데이터를 가능하게 하는 자기 진화 체제를 탐색한다.
수학 및 교차 도메인 의학 벤치마크에서 일반 LLM과 R1-스타일 LLM 모두에 대해 강건성을 입증한다.

제안 방법

CoT 길이를 활성화 제어를 통해 좌우하는 LLM 표현의 가변 길이 방향(VL-D)을 식별한다.
선정된 계층에서 제어된 강도로 VL-D를 따라 개입해 대상 LLM들로부터 가변 길이 CoT 추적을 샘플링한다.
골드 답변 매칭 또는 가변 길이 CoT 변형 간의 자기 일관성을 사용해 데이터 품질을 확인한다.
빠른 사고-CoT를 학습하기 위해 듀얼-인지 시스템(System 1 과 System 2 프롬프트)과 점진적 압축 커리큘럼으로 미세조정한다.
선택적으로 골드 답변 없이 예측 일치성을 갖는 SFT 데이터가 적용된 완전한 자체 진화 변형(S3-CoT sc)을 사용할 수 있다.

Figure 1: A self-sampling framework for efficient CoT learning. Our study (1) samples variable-length CoT data via intervention along VL-D; (2) filters data via answer or self-consistency verification; and (3) achieves efficient CoT internalization via a dual-cognitive system and progressive compres

실험 결과

연구 질문

RQ1CoT 길이를 조정할 수 있는 길이 제어 선형 방향이 LLM 표현에 존재하는가?
RQ2이 방향을 따라 개입해 고품질의 가변 길이 CoT 데이터를 어떻게 샘플링할 수 있는가?
RQ3자가 샘플링된 데이터가 서로 다른 LLM 계열에서 효율적이고 강건한 CoT 내재화를 가능하게 하는가?
RQ4자가 일관성 검증이 데이터 품질과 downstream 성능에 미치는 영향은 무엇인가?

주요 결과

가변 길이 방향(VL-D)이 중간 계층에서 등장하고 샘플 간에 병렬 CoT-길이 방향을 산출한다.
자가 일관성 검증은 여러 LLM에서 샘플링된 데이터에 거의 완벽한 정확도를 제공하여 많은 경우 골드 라벨 없이도 높은 데이터 품질을 시사한다.
S3-CoT은 수학 벤치마크와 일반 LLM에서 프롬프트 제어 및 SFT 베이스라인 대비 길이-정확도 트레이드오프를 크게 개선하고, RL 기반 베이스라인과도 경쟁력이 있다.
S3-CoT은 수학 및 의학 벤치마크에서 일반 LLM과 R1 스타일 LLM 모두에 대해 적응성과 강건한 성능을 보여준다.
완전한 자체 진화 변형 S3-CoT sc는 상당한 잠재력을 보여주며 CoT 학습을 위한 자기 감독 데이터의 실행 가능성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.