[논문 리뷰] S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs
S3-CoT는 활성화 방향 제어를 사용하여 대상 LLM들로부터 가변 길이의 고품질 CoT 추적을 얻는 자체 샘플링 프레임워크를 도입하여 외부 교사 없이도 효율적인 CoT 학습을 가능하게 하며 일반 및 일부 R1 스타일 LLM에서 길이-정확도 트레이드오프가 강하게 나타남.
Large language models (LLMs) equipped with chain-of-thought (CoT) achieve strong performance and offer a window into LLM behavior. However, recent evidence suggests that improvements in CoT capabilities often come with redundant reasoning processes, motivating a key question: Can LLMs acquire a fast-thinking mode analogous to human System 1 reasoning? To explore this, our study presents a self-sampling framework based on activation steering for efficient CoT learning. Our method can induce style-aligned and variable-length reasoning traces from target LLMs themselves without any teacher guidance, thereby alleviating a central bottleneck of SFT-based methods-the scarcity of high-quality supervision data. Using filtered data by gold answers, we perform SFT for efficient CoT learning with (i) a human-like dual-cognitive system, and (ii) a progressive compression curriculum. Furthermore, we explore a self-evolution regime in which SFT is driven solely by prediction-consistent data of variable-length variants, eliminating the need for gold answers. Extensive experiments on math benchmarks, together with cross-domain generalization tests in medicine, show that our method yields stable improvements for both general and R1-style LLMs. Our data and model checkpoints can be found at https://github.com/DYR1/S3-CoT.
연구 동기 및 목표
- 효율적이고 간결한 CoT LLM을 학습하는 데 있어 데이터 부족 문제를 해결한다.
- 교사 감독 없이 대상 LLM들로부터 가변 길이의 스타일 정렬된 CoT 흔적을 유도하는 방법을 학습한다.
- 진행형 압축 커리큘럼을 갖춘 자기 감독 미세조정을 통해 효율적인 CoT를 내재화한다.
- 골드 답변 없이도 예측 일치성을 갖춘 학습 데이터를 가능하게 하는 자기 진화 체제를 탐색한다.
- 수학 및 교차 도메인 의학 벤치마크에서 일반 LLM과 R1-스타일 LLM 모두에 대해 강건성을 입증한다.
제안 방법
- CoT 길이를 활성화 제어를 통해 좌우하는 LLM 표현의 가변 길이 방향(VL-D)을 식별한다.
- 선정된 계층에서 제어된 강도로 VL-D를 따라 개입해 대상 LLM들로부터 가변 길이 CoT 추적을 샘플링한다.
- 골드 답변 매칭 또는 가변 길이 CoT 변형 간의 자기 일관성을 사용해 데이터 품질을 확인한다.
- 빠른 사고-CoT를 학습하기 위해 듀얼-인지 시스템(System 1 과 System 2 프롬프트)과 점진적 압축 커리큘럼으로 미세조정한다.
- 선택적으로 골드 답변 없이 예측 일치성을 갖는 SFT 데이터가 적용된 완전한 자체 진화 변형(S3-CoT sc)을 사용할 수 있다.

실험 결과
연구 질문
- RQ1CoT 길이를 조정할 수 있는 길이 제어 선형 방향이 LLM 표현에 존재하는가?
- RQ2이 방향을 따라 개입해 고품질의 가변 길이 CoT 데이터를 어떻게 샘플링할 수 있는가?
- RQ3자가 샘플링된 데이터가 서로 다른 LLM 계열에서 효율적이고 강건한 CoT 내재화를 가능하게 하는가?
- RQ4자가 일관성 검증이 데이터 품질과 downstream 성능에 미치는 영향은 무엇인가?
주요 결과
- 가변 길이 방향(VL-D)이 중간 계층에서 등장하고 샘플 간에 병렬 CoT-길이 방향을 산출한다.
- 자가 일관성 검증은 여러 LLM에서 샘플링된 데이터에 거의 완벽한 정확도를 제공하여 많은 경우 골드 라벨 없이도 높은 데이터 품질을 시사한다.
- S3-CoT은 수학 벤치마크와 일반 LLM에서 프롬프트 제어 및 SFT 베이스라인 대비 길이-정확도 트레이드오프를 크게 개선하고, RL 기반 베이스라인과도 경쟁력이 있다.
- S3-CoT은 수학 및 의학 벤치마크에서 일반 LLM과 R1 스타일 LLM 모두에 대해 적응성과 강건한 성능을 보여준다.
- 완전한 자체 진화 변형 S3-CoT sc는 상당한 잠재력을 보여주며 CoT 학습을 위한 자기 감독 데이터의 실행 가능성을 확인한다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.