[논문 리뷰] Process Supervision for Chain-of-Thought Reasoning via Monte Carlo Net Information Gain
MCNIG은 프로세스 보상 모델의 단계별 레이블을 자동으로 생성하여 체인-오브-생각(CoT) 추론을 감독하고 선형 복잡도를 달성하며 수학, 코딩, SQL 과제에서 best-of-K 정답 선택을 향상시킵니다.
Multi-step reasoning improves the capabilities of large language models (LLMs) but increases the risk of errors propagating through intermediate steps. Process reward models (PRMs) mitigate this by scoring each step individually, enabling fine-grained supervision and improved reliability. Existing methods for training PRMs rely on costly human annotations or computationally intensive automatic labeling. We propose a novel approach to automatically generate step-level labels using Information Theory. Our method estimates how each reasoning step affects the likelihood of the correct answer, providing a signal of step quality. Importantly, it reduces computational complexity to $\mathcal{O}(N)$, improving over the previous $\mathcal{O}(N \log N)$ methods. We demonstrate that these labels enable effective chain-of-thought selection in best-of-$K$ evaluation settings across diverse reasoning benchmarks, including mathematics, Python programming, SQL, and scientific question answering. This work enables scalable and efficient supervision of LLM reasoning, particularly for tasks where error propagation is critical.
연구 동기 및 목표
- LLM에서 강건한 다단계 추론을 촉진하여 체인-오브-생각(CoT)에서의 오류 전파를 방지한다.
- 프로세스 보상 모델(PRMs)을 학습시키기 위한 추론 단계를 자동으로 라벨링하는 확장 가능한 방법을 도입한다.
- MCNIG 기반 감독이 다양한 도메인에서 단계별 평가와 best-of-K 정답 선택을 개선함을 보인다.
- 이전 자동 라벨링 방법 대비 효율성 향상을 입증하고 PRMs를 프로그래밍 및 텍스트-투-SQL 작업으로 확장한다.
제안 방법
- 구조화된 형식과 최종 정답 검증기를 갖춘 기본 LLM을 사용하여 문제당 여러 개의 CoT 추적을 생성한다.
- 정보 이득(IG)과 몬테카를로넷 정보 이득(MCNIG)을 사용하여 각 단계의 정보 측정을 계산하고 정답 트레이스와 부정확 트레이스를 대조한다.
- 도메인별 임계값으로 MCNIG에 기반한 이진 단계 레이블을 할당하여 점수 스케일을 표준화한다.
- 단계 구분자에서 이진 분류 헤드를 두는 구분자 기반 입력을 사용하여 각 단계의 정확성을 예측하도록 프로세스 보상 모델(PRM)을 학습한다.
- 전체 추론 체인 후 최종 결과만 평가하는 기준으로 결과 보상 모델(ORM)을 학습한다.
- 다양한 벤치마크에서 best-of-K 선택을 사용해 PRM과 ORM을 평가하고 모델 확장성 테스트(8B 대 14B)를 수행한다.
실험 결과
연구 질문
- RQ1MCNIG가 다양한 작업에서 단계별 추론 품질에 대해 신뢰할 수 있고 확장 가능한 신호를 제공할 수 있는가?
- RQ2IG 라벨링 및 ORM 기반의 기준선 대비 MCNIG 라벨링이 PRM 기반 best-of-K 성능을 향상시키는가?
- RQ3수학, 코딩, 텍스트-투-SQL 도메인에서 MCNIG가 PRM 성능에 어떤 영향을 미치며, 분포 외 시나리오를 포함하는가?
주요 결과
- MCNIG 라벨링은 모든 데이터셋에서 단순 정보 이득보다 더 신뢰할 수 있는 단계별 감독을 제공한다.
- MCNIG로 학습된 PRM이 IG로 학습된 PRM, ORM 기준선, 다수결 투표를 능가하며 특히 K가 커질수록 best-of-K 선택에서 우수하다.
- MCNIG는 라벨링 토큰을 약 1.1e8로 줄여 OmegaPRM의 7배 적은 수치를 달성해 더 빠른 라벨링을 가능하게 한다.
- 모델 크기를 8B에서 14B로 늘리면 MCNIG 학습 PRM에서 평균 약 1.1퍼센트 포인트의 성능 향상을 얻는다.
- 테스트 방법 중 UGPhysics의 분포 외에서도 MCNIG 학습 PRM이 가장 높은 정확도에 도달했다(MCNIG 14B: 15.1%).
- ProcessBench에서 MCNIG 기반 PRM은 보고된 기준선 중에서 최첨단 F1 점수에 근접하며(MCNIG 14B가 QwenPRM 7B를 약간 상회).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.