[논문 리뷰] TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG
TreePS-RAG은 중간 라벨 없이 자손 결과의 몬테 카를로 추정치를 통해 단계별 프로세스 감독을 제공하는 온라인 트리 구조 롤아웃을 도입하여, 최종 라벨만 있는 보상보다 RL 학습 효율성과 QA 성능을 향상시킨다.
Agentic retrieval-augmented generation (RAG) formulates question answering as a multi-step interaction between reasoning and information retrieval, and has recently been advanced by reinforcement learning (RL) with outcome-based supervision. While effective, relying solely on sparse final rewards limits step-wise credit assignment and provides weak guidance for intermediate reasoning and actions. Recent efforts explore process-level supervision, but typically depend on offline constructed training data, which risks distribution shift, or require costly intermediate annotations. We present TreePS-RAG, an online, tree-based RL framework for agentic RAG that enables step-wise credit assignment while retaining standard outcome-only rewards. Our key insight is to model agentic RAG reasoning as a rollout tree, where each reasoning step naturally maps to a node. This tree structure allows step utility to be estimated via Monte Carlo estimation over its descendant outcomes, yielding fine-grained process advantages without requiring intermediate labels. To make this paradigm practical, we introduce an efficient online tree construction strategy that preserves exploration diversity under a constrained computational budget. With a rollout cost comparable to strong baselines like Search-R1, experiments on seven multi-hop and general QA benchmarks across multiple model scales show that TreePS-RAG consistently and significantly outperforms both outcome-supervised and leading process-supervised RL methods.
연구 동기 및 목표
- 희소한 최종 보상 외의 크레딧 할당을 개선하는 것을 목표로 에이전틱 RAG에서의 크레딧 할당을 고무한다.
- 중간 라벨 없이 단계별 감독을 가능하게 하는 온라인 트리 구조 롤아웃을 제안한다.
- 효율적인 온라인 트리 구성 및 다양성 보존 가지치기 전략을 개발한다.
- QA 벤치마크 전반에서 결과-전용 및 기존 프로세스 감독 RL 베이스라인에 비해 개선을 보여준다.
제안 방법
- 각 단계가 노드이고 잎이 최종 답변에 해당하는 뿌리 트리로 에이전틱 RAG 롤아웃을 모델링한다.
- 자손 잎에 대한 몬테카를로 추정을 사용하여 내부 노드에 프로세스 값 V(n)을 할당하고 프로세스 이점을 계산한다.
- 노드 값에서 전역 및 로컬 이점을 계산하고 이를 정규화된 프로세스 이점 A(n)로 결합하여 정책 최적화를 수행한다.
- 계산을 제어하기 위해 예산 의식적인 분기 B_d = ceil(N / |M(d-1)|)로 깊이가 제한된 온라인 트리 확장을 구현한다.
- 상위-K으로 검색된 구절의 Jaccard 유사도를 사용하여 형제 탐색 자식에 유사성 기반 가지치기를 적용하고 다양한 연속성을 유지한다.
- 정책 그래디언트 업데이트 중 해당 단계에서 생성된 모든 토큰에 노드 단위 프로세스 이점을 브로드캐스트한다.
실험 결과
연구 질문
- RQ1프로세스 감독이 명시적 단계별 주석 없이도 에이전틱 RAG 학습을 개선할 수 있는가?
- RQ2온라인 트리 기반 롤아웃이 기존의 결과 기반 RL과 비교해 촘촘한 크레딧 할당을 제공하는가?
- RQ3유사성 기반 가지치기와 몬테 카를로 추정 기반 프로세스 값이 표준 방법보다 더 나은 탐색 및 학습 신호를 제공하는가?
- RQ4TreePS-RAG의 성능은 다수의 QA 벤치마크 및 모델 규모에서 결과-감독 및 다른 프로세스 감독 RL 접근법과 어떻게 비교되는가?
주요 결과
- TreePS-RAG은 네 가지 백본 모델에서 일곱 개의 QA 벤치마크에서 일관되게 경쟁 베이스라인을 능가한다.
- _온라인 롤아웃 비용은 Search-R1과 같은 결과 기반 방법과 비교 가능한 수준이다._
- 트리 기반 감독에서 도출된 프로세스 이점은 더 미세한 크레딧 할당을 제공하고 중간 라벨 없이도 성능을 향상시킨다.
- 유사성 기반 가지치기는 탐색 다양성을 유지하고 강건한 이득을 달성하는 데 필수적이다.
- 트리를 확장하면 몬테 카를로 추정 분산을 줄여 추가적인 이점을 modest하게 제공한다.
- 연속성 기반 분석은 TreePS-RAG가 베이스라인에 비해 불완전한 추론 접두사를 수정하는 데 더 잘 작동한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.