Skip to main content
QUICK REVIEW

[논문 리뷰] Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Xiao Liang, Zhong-Zhi Li|arXiv (Cornell University)|2026. 02. 02.
Topic Modeling인용 수 0
한 줄 요약

논문은 DAC-RL을 소개한다. 이는 분할-정복(DAC) 추론을 수행하도록 LLM을 엔드투엔드 강화학습 프레임워크로 학습시키며, 코어(CoT)보다 더 높은 추론 한계와 테스트 타임 확장성을 제공한다. DAC-RL은 경쟁 수준 벤치마크에서 CoT와 비교해 Pass@1과 Pass@32를 크게 향상시킨다.

ABSTRACT

Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.

연구 동기 및 목표

  • DAC 스타일의 추론이 도전적인 작업에 대해 순차적 CoT보다 확장 가능한 대안으로서 필요하다는 점을 동기부여한다.
  • 일반 후학습(post-training)과 DAC 스타일 추론 간의 미스얼라인먼트를 확인하여 DAC 잠재력을 제한하는 요인을 파악한다.
  • LLM을 DAC 추론에 대해 엔드투엔드 RL 프레임워크로 학습시키는 방법을 제안한다.
  • DAC-RL이 수학 벤치마에서 성능 한계를 높이고 테스트 타임 확장성을 개선함을 입증한다.

제안 방법

  • DAC 추론을 분할 단계(하위 문제 생성)와 정복 단계(하위 문제를 해결하고 원래 문제를 해결)로 형식화한다.
  • 하나의 통합 RL 목표를 제시하여 분할 보상과 정복 보상을 함께 최적화한다(식 1).
  • 형식의 유효성, 양의성, 그리고 유용성을 결합하는 분할 보상(식 2)을 정의한다.
  • 두 단계 DAC로 학습한다: 각 그룹에 대해 Gd 하위 문제 그룹을 생성하고 Gc 정복 솔루션을 생성하며, 최종 정답의 정답 여부를 정복 보상으로 사용한다(식 3).
  • 대회 수준 벤치마크(AIME 2024/2025, Beyond-AIME, HMMT)에서 passes@k 지표로 평가하고, DAC-RL을 Init-CoT, Init-DAC, RL-CoT, RL-DAC와 비교한다.

실험 결과

연구 질문

  • RQ1엔드투엔드 RL 학습이 사후 학습(CoT)만으로는 달성되지 않는 DAC 스타일 추론을 LLM에서 구현하도록 열 수 있는가?
  • RQ2DAC 스타일 학습이 경계 수학 벤치마크에서 CoT보다 더 높은 성능 한계와 더 나은 테스트 타임 확장성을 제공하는가?
  • RQ3하위 문제 분할의 질과 정복의 질이 최종 문제 해결 성능에 어떻게 함께 영향을 미치는가?
  • RQ4딥 DAC 학습과 차가운 시작(distillation) 학습이 DAC 능력에 어떤 영향을 주는가?
  • RQ5확장성을 위한 테스트 타임 DAC 구성(분할 대 정복 할당)의 최적 조합은 무엇인가?

주요 결과

모델AIME 2024 Pass@1AIME 2024 Pass@32AIME 2025 Pass@1AIME 2025 Pass@32Beyond-AIME Pass@1Beyond-AIME Pass@32HMMT 2025 Pass@1HMMT 2025 Pass@32Average Pass@1Average Pass@32
Qwen2.5-7B-Instruct Init-CoT9.826.76.836.73.823.02.010.05.624.1
Qwen2.5-7B-Instruct Init-DAC0.513.30.26.70.710.00.26.70.49.2
Qwen2.5-7B-Instruct RL-CoT13.534.511.430.85.125.52.713.18.227.0
Qwen2.5-7B-Instruct RL-DAC15.539.115.534.27.027.44.820.810.430.4
Qwen3-4B-Instruct-2507 Init-CoT62.690.045.776.732.165.030.356.742.772.1
Qwen3-4B-Instruct-2507 Init-DAC59.690.043.273.329.661.028.263.340.271.9
Qwen3-4B-Instruct-2507 RL-CoT45.985.852.177.430.458.121.854.437.569.0
Qwen3-4B-Instruct-2507 RL-DAC63.987.754.278.834.667.931.966.646.175.3
Qwen3-4B-Instruct-2507 (Deep) RL-D-CoT64.484.858.887.938.969.537.665.549.976.9
Qwen3-4B-Instruct-2507 (Deep) RL-D-DAC66.391.661.587.638.870.738.776.451.381.6
  • DAC 스타일의 학습은 CoT보다 더 높은 한계를 보이며 경쟁 벤치마크에서 Pass@1 및 Pass@32를 향상시킨다(예: 특정 모델에서 +8.6% Pass@1, +6.3% Pass@32).
  • DAC-RL은 Init-DAC/Init-CoT의 초기 DAC 성능이 낮아도 CoTRL 및 기타 기준선보다 더 뛰어나며 훈련 시점의 강력한 이점을 시사한다.
  • 깊은 DAC 학습은 특히 harder 문제에서 추론 및 테스트 타임 확장성을 더욱 향상시키며 CoT 기준선 대비 주목할 만한 이점을 보인다.
  • Mix-RL(CoT와 DAC의 결합)은 단순한 과제에서 CoT 성능을 높이면서도 어려운 과제에서 DAC 추론을 가능하게 한다.
  • 테스트 타임 DAC 구성은 더 많은 하위 문제 그룹(n)과 더 적은 정복 솔루션(m)이 고정 예산 대비 성능을 개선함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.