[논문 리뷰] Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models
이 설문은 reinforcement-based reasoning in LLMs에 대한 개관으로, 데이터 구성, RL-based 훈련, 그리고 대규모 추론 모델로의 테스트 시 스케일링에 대해 다루며 OpenAI의 o1 시리즈 및 오픈소스 노력에 대한 참조를 포함합니다.
Language has long been conceived as an essential tool for human reasoning. The breakthrough of Large Language Models (LLMs) has sparked significant research interest in leveraging these models to tackle complex reasoning tasks. Researchers have moved beyond simple autoregressive token generation by introducing the concept of "thought" -- a sequence of tokens representing intermediate steps in the reasoning process. This innovative paradigm enables LLMs' to mimic complex human reasoning processes, such as tree search and reflective thinking. Recently, an emerging trend of learning to reason has applied reinforcement learning (RL) to train LLMs to master reasoning processes. This approach enables the automatic generation of high-quality reasoning trajectories through trial-and-error search algorithms, significantly expanding LLMs' reasoning capacity by providing substantially more training data. Furthermore, recent studies demonstrate that encouraging LLMs to "think" with more tokens during test-time inference can further significantly boost reasoning accuracy. Therefore, the train-time and test-time scaling combined to show a new research frontier -- a path toward Large Reasoning Model. The introduction of OpenAI's o1 series marks a significant milestone in this research direction. In this survey, we present a comprehensive review of recent progress in LLM reasoning. We begin by introducing the foundational background of LLMs and then explore the key technical components driving the development of large reasoning models, with a focus on automated data construction, learning-to-reason techniques, and test-time scaling. We also analyze popular open-source projects at building large reasoning models, and conclude with open challenges and future research directions.
연구 동기 및 목표
- LLMs에서 인간과 같은 추론의 필요성과 확장 가능한 추론 모델의 추구를 동기부여합니다.
- LLM 구동 자동화를 통해 인간 주석 의존도를 줄이는 데이터 구성 접근법을 조사합니다.
- 학습-추론 기법을 포함한 학습-추론 기술을 검토합니다( RL, PRMs, 정렬 방법).
- 테스트 시 스케일링 및 프롬프트 전략이 추론 정확도와 강건성을 향상시키는지 examination합니다.
제안 방법
- LLM 구동 검색 및 자기 개선을 통한 자동 데이터 구성에 대해 논의합니다.
- LLM 추론을 위한 강화 학습 프레임워크를 분석합니다( RLHF, RLAIF, Direct Preference Optimization (DPO)).
- 추론을 안내하는 과정 보상 모델(PRMs)의 역할을 설명합니다.
- 의도된 추론 및 PRM 주도 검색을 통한 테스트 타임 스케일링을 탐구합니다.
- 프롬핑 전략(CoT, tree/graph-of-thoughts, ReAct, 분해 방법) 및 에이전트 워크플로를 다룹니다.
- 대형 추론 모델의 벤치마크로 OpenAI의 o1 시리즈 및 오픈소스 프로젝트를 검토합니다.

실험 결과
연구 질문
- RQ1학습 시 강화로 인해 LLM 추론을 확장시키는 가장 효과적인 학습 신호와 데이터 구성 방법은 무엇입니까?
- RQ2테스트 시 전략과 PRMs가 추론 정확도와 신뢰성에 어떤 영향을 미칩니까?
- RQ3OpenAI의 o1 및 오픈소스 노력이 대규모 추론 모델을 향상시키는 데 어떤 교훈을 제공합니까?
주요 결과
- 강화 학습 및 AI 주도 데이터 구성은 감독형 미세조정보다 LLM 추론 능력을 상당히 확장합니다.
- 과정 보상 모델은 훈련 중 추론을 개선하는 밀도 높은 단계별 피드백을 가능하게 합니다.
- PRM에 의해 안내된 테스트 시 스케일링은 더 의도적인 중간 사고를 허용하여 추론 정확도를 높일 수 있습니다.
- 프롬핑 기술(CoT, tree/graph-of-thoughts, ReAct) 및 에이전트적 워크플로는 문제 해결 및 추론 범 situ를 향상시킵니다.
- OpenAI의 o1 및 다수의 오픈소스 프로젝트는 확장 가능한 대형 추론 모델로의 실용적 진전을 보여줍니다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.