Skip to main content
QUICK REVIEW

[논문 리뷰] From System 1 to System 2: A Survey of Reasoning Large Language Models

Zhongzhi Li, Duzhen Zhang|ArXiv.org|2025. 02. 24.
Natural Language Processing Techniques인용 수 4
한 줄 요약

이 설문조사는 기초 LLM(System 1)에서 추론 LLM(System 2)까지의 발전을 검토하고, 핵심 방법, 벤치마크, 고급 추론 능력을 위한 향후 방향을 자세히 다룹니다. 또한 실시간 GitHub 저장소를 통해 개발 현황을 추적합니다.

ABSTRACT

Achieving human-level intelligence requires refining the transition from the fast, intuitive System 1 to the slower, more deliberate System 2 reasoning. While System 1 excels in quick, heuristic decisions, System 2 relies on logical reasoning for more accurate judgments and reduced biases. Foundational Large Language Models (LLMs) excel at fast decision-making but lack the depth for complex reasoning, as they have not yet fully embraced the step-by-step analysis characteristic of true System 2 thinking. Recently, reasoning LLMs like OpenAI's o1/o3 and DeepSeek's R1 have demonstrated expert-level performance in fields such as mathematics and coding, closely mimicking the deliberate reasoning of System 2 and showcasing human-like cognitive abilities. This survey begins with a brief overview of the progress in foundational LLMs and the early development of System 2 technologies, exploring how their combination has paved the way for reasoning LLMs. Next, we discuss how to construct reasoning LLMs, analyzing their features, the core methods enabling advanced reasoning, and the evolution of various reasoning LLMs. Additionally, we provide an overview of reasoning benchmarks, offering an in-depth comparison of the performance of representative reasoning LLMs. Finally, we explore promising directions for advancing reasoning LLMs and maintain a real-time \href{https://github.com/zzli2022/Awesome-Slow-Reason-System}{GitHub Repository} to track the latest developments. We hope this survey will serve as a valuable resource to inspire innovation and drive progress in this rapidly evolving field.

연구 동기 및 목표

  • 기초 LLM에서 추론 LLM으로의 진행과 이를 통해 System 2형 추론을 달성하려는 동기를 요약한다.

제안 방법

  • 기초 LLM과 초기 System 2 기술(상징적 논리, MCTS, RL)의 개요와 추론 LLM에서의 역할을 설명한다.
  • 출력 행동과 훈련 역학에 초점을 맞춘 추론 LLM 구성에 대해 설명한다.
  • Structure Search, Reward Modeling, Self Improvement, Macro Action, Reinforcement Fine-Tuning 등 추론을 가능하게 하는 핵심 방법과 대표 모델을 상세히 다룬다.
  • 추론 LLM과 기초 모델 간의 비교 평가를 포함한 벤치마킹 범위를 제공한다.
  • 한계와 향후 방향을 강조하고, 실시간 GitHub 추적 자원을 제공한다.

실험 결과

연구 질문

  • RQ1LLM의 System 2 추론에 대한 기초 기술과 그 기여는 무엇인가?
  • RQ2의도적이고 단계별 추론을 모방하도록 추론 LLM을 어떻게 구성하고 학습시킬 수 있는가?
  • RQ3현대 추론 능력을 주도하는 주요 방법과 대표 모델은 무엇이며 벤치마크에서 어떻게 비교되는가?
  • RQ4추론 LLM의 현재 한계와 잠재적 미래 방향은 무엇인가?

주요 결과

  • 기초 LLM은 폭넓은 언어 이해와 In-Context Learning 및 Chain-of-Thought와 같은 등장적 능력을 가능하게 하지만 본질적으로 System 1에 남아 있다.
  • 상징적 논리, MCTS, 및 RL은 구조적이고 심사숙고하는 프레임워크를 제공함으로써 추론 LLM의 기초를 마련했다.
  • 추론 LLM은 Structure Search, Reward Modeling, Self Improvement, Macro Action, Reinforcement Fine-Tuning과 같은 핵심 방법을 활용하여 고급 추론을 달성한다.
  • 일반 텍스트 및 다중 모달 작업에 대한 추론 벤치마크가 존재하며 기초 모델과의 비교 평가가 이루어진다.
  • 본 논문은 한계와 미래 방향을 논의하고 발전 현황을 추적하기 위해 실시간 GitHub 저장소를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.