[論文レビュー] From System 1 to System 2: A Survey of Reasoning Large Language Models
このサーベイは基礎的なLLMs(System 1)から推論LLMs(System 2)への進展を概観し、高度な推論能力のための核心的手法、ベンチマーク、今後の方向性を詳述します。リアルタイムのGitHubリポジトリを通じた developments も追跡します。
Achieving human-level intelligence requires refining the transition from the fast, intuitive System 1 to the slower, more deliberate System 2 reasoning. While System 1 excels in quick, heuristic decisions, System 2 relies on logical reasoning for more accurate judgments and reduced biases. Foundational Large Language Models (LLMs) excel at fast decision-making but lack the depth for complex reasoning, as they have not yet fully embraced the step-by-step analysis characteristic of true System 2 thinking. Recently, reasoning LLMs like OpenAI's o1/o3 and DeepSeek's R1 have demonstrated expert-level performance in fields such as mathematics and coding, closely mimicking the deliberate reasoning of System 2 and showcasing human-like cognitive abilities. This survey begins with a brief overview of the progress in foundational LLMs and the early development of System 2 technologies, exploring how their combination has paved the way for reasoning LLMs. Next, we discuss how to construct reasoning LLMs, analyzing their features, the core methods enabling advanced reasoning, and the evolution of various reasoning LLMs. Additionally, we provide an overview of reasoning benchmarks, offering an in-depth comparison of the performance of representative reasoning LLMs. Finally, we explore promising directions for advancing reasoning LLMs and maintain a real-time \href{https://github.com/zzli2022/Awesome-Slow-Reason-System}{GitHub Repository} to track the latest developments. We hope this survey will serve as a valuable resource to inspire innovation and drive progress in this rapidly evolving field.
研究の動機と目的
- 基礎的なLLMsから推論LLMsへの進展と、そのSystem 2風推論を達成する動機を要約する。
提案手法
- 基礎的なLLMsと初期のSystem 2技術(symbolic logic, MCTS, RL)とそれらが推論LLMsにおける役割を概説する。
- 推論LLMsの構築を、出力挙動と訓練ダイナミクスに焦点を当てて説明する。
- 推論を可能にする核となる手法(Structure Search, Reward Modeling, Self Improvement, Macro Action, Reinforcement Fine-Tuning)と代表的モデルを詳述する。
- 推論LLMsと基盤モデルの比較評価とベンチマークのカバー範囲を提供する。
- 制約と今後の方向性に加え、リアルタイムのGitHub追跡リソースを強調する。
実験結果
リサーチクエスチョン
- RQ1LLMsにおけるSystem 2推論への基盤技術とその貢献は何か。
- RQ2推論LLMsをどのように構築・訓練して、意図的で段階的な推論を模倣できるか。
- RQ3現代の推論能力を推進する主要な手法と代表的モデルは何か,ベンチマークで基盤モデルとどう比較されるか。
- RQ4推論LLMsの現状の制約と将来の潜在的方向性は何か。
主な発見
- 基礎的LLMsは広範な言語理解とIn-Context LearningやChain-of-Thoughtのような出現的能力をもたらすが、本質的にはSystem 1の性質を持つ。
- Symbolic logic、MCTS、RLは構造化された熟考的フレームワークを提供することで推論LLMsの土台を築いた。
- 推論LLMsはStructure Search、Reward Modeling、Self Improvement、Macro Action、Reinforcement Fine-Tuningなどの核となる手法を用いて高度な推論を実現する。
- 推論ベンチマークはプレーンテキストとマルチモーダルタスクの両方に存在し、基盤モデルとの比較評価が行われている。
- 本論は制約と今後の方向性を論じ、開発動向を追跡するライブなGitHubリポジトリを維持している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。