Skip to main content
QUICK REVIEW

[논문 리뷰] Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels

Micah Rentschler, Jesse Roberts|arXiv (Cornell University)|2026. 01. 29.
Topic Modeling인용 수 0
한 줄 요약

RLME는 ground-truth 레이블이 아닌 평가자의 메타 평가로 언어 모델을 학습하여 RLVR과 비슷한 정확도와 샘플 효율성을 달성하는 동시에 다-objective 제어 및 도메인 일반화를 가능하게 한다.

ABSTRACT

Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.

연구 동기 및 목표

  • ground-truth 레이블 또는 작업 검증기 의존성을 메타-evaluation 신호로 줄이기.
  • 유연하고 언어 구동 기준으로 LLM 정렬의 확장 가능성 향상.
  • 추론 중심 작업 및 개방 도메인 설정에서 경쟁력 있는 성능 시연.
  • 메타-evaluation에서의 강건성, 실패 모드 및 다-objective 제어 조사.

제안 방법

  • 프롬프트 x에 대해 정책 πθ를 사용하여 응답 생성.
  • 평가자 πϕj를 통해 메타-질문 qk로 응답을 평가하여 확률 pkj를 얻음.
  • 로그 확률의 가중합으로 평가자 및 메타-질문 간 보상 r(x,y) 계산.
  • off-policy 데이터를 처리하기 위한 CISPO를 활용한 GRPO-스타일 목표로 생성기 업데이트.
  • 보상 형성에 영향을 주도록 서로 다른 평가자 구성(동결 자기, 동결 타자, 자기 평가, 앙상블) 및 메타-질문 허용.
  • ground-truth 레이블 없이도 RLVR 기준선과 비교하여 성능을 평가.
Figure 1 : Overview of RLME. After generating an answer, one or more evaluators (may be the same model) assign probabilities to natural-language meta-questions about the output. These probabilities are aggregated into a scalar reward, which is then used to update the generative policy via reinforcem
Figure 1 : Overview of RLME. After generating an answer, one or more evaluators (may be the same model) assign probabilities to natural-language meta-questions about the output. These probabilities are aggregated into a scalar reward, which is then used to update the generative policy via reinforcem

실험 결과

연구 질문

  • RQ1단일 메타-질문이 ground-truth 레이블 없이도 정확도를 향상시키기에 충분한 보상 신호를 제공할 수 있는가?
  • RQ2검증 가능한 작업에서 정확도 및 샘플 효율성 측면에서 RLME의 성능이 라벨 기반 RLVR과 어떻게 비교되는가?
  • RQ3평가자 선택 및 다-목표 메타-질문이 생성기의 정렬 및 행동에 어떤 영향을 미치는가?
  • RQ4보상 해킹 등 실패 모드와 메타-evaluation 기반 RL의 일반화 특성은 무엇인가?

주요 결과

  • RLME은 GSM8K에서 RLVR과 비교할 정도의 정확도 및 샘플 효율성을 달성하며, 보고된 실험에서 90% 정확도를 넘어섬.
  • RLME은 ground-truth 답을 한 번도 관찰하지 못했음에도 학습 곡선에서 RLVR을 밀착 추적한다.
  • 메타-evaluation은 확장 가능한 보상 신호를 제공하여 모델이 사후 합리화가 아니라 신뢰할 수 있는 추론 패턴으로 방향을 잡도록 할 수 있다.
  • 프레임워크는 메타-질문 및 가중치 구성으로 여러 목표 간의 제어 가능한 트레이드오프를 지원한다.
  • RLME는 ground-truth 레이블이 없는 오픈 도메인 설정에 일반화되어 LLM의 RL 기반 정렬을 확장한다.
  • 연구는 생성자/평가자 선택, 자기 평가, 가능 보상-해킹 행동에 대한 분석을 제공하여 강점과 실패 모드를 밝힌다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.