[論文レビュー] Reinforcement Learning from Meta-Evaluation: Aligning Language Models Without Ground-Truth Labels
RLME は ground-truth ラベルではなく評価者からのメタ評価信号を用いて言語モデルを訓練し、RLVR に対する競争力のある精度とサンプル効率を達成しつつ、多目的な制御とドメイン一般化を可能にする。
Most reinforcement learning (RL) methods for training large language models (LLMs) require ground-truth labels or task-specific verifiers, limiting scalability when correctness is ambiguous or expensive to obtain. We introduce Reinforcement Learning from Meta-Evaluation (RLME), which optimizes a generator using reward derived from an evaluator's answers to natural-language meta-questions (e.g., "Is the answer correct?" or "Is the reasoning logically consistent?"). RLME treats the evaluator's probability of a positive judgment as a reward and updates the generator via group-relative policy optimization, enabling learning without labels. Across a suite of experiments, we show that RLME achieves accuracy and sample efficiency comparable to label-based training, enables controllable trade-offs among multiple objectives, steers models toward reliable reasoning patterns rather than post-hoc rationalization, and generalizes to open-domain settings where ground-truth labels are unavailable, broadening the domains in which LLMs may be trained with RL.
研究の動機と目的
- ground-truth ラベルやタスク検証子への依存をメタ評価信号で減らす。
- 柔軟な言語駆動基準での LLM のスケーラブルな整合を可能にする。
- 推論重視のタスクとオープンドメイン設定で競争力のある性能を示す。
- メタ評価の頑健性・失敗モード・多目的制御を調査する。
提案手法
- プロンプト x を与えて policy πθ による応答を生成する。
- 評価者 πϕj によってメタ質問 qk を用いて応答を評価し、確率 pkj を得る。
- 報酬 r(x,y) を評価者とメタ質問全体の対数確率の加重和として計算する。
- GRPO 系列の目的で CISPO を用いてオフポリシー データを処理するジェネレータの更新。
- 報酬を形成するために、異なる評価者構成(凍結自己、凍結他者、自己評価、アンサンブル)とメタ質問を許容する。
- ground-truth ラベルなしでの RLVR ベースラインと比較して性能を評価する。

実験結果
リサーチクエスチョン
- RQ1ground-truth ラベルなしで精度を改善するのに十分な報酬信号を単一のメタ質問が提供できるか。
- RQ2 verifiable なタスクにおける精度とサンプル効率で RLME の性能はラベルベースの RLVR とどう比較されるか。
- RQ3評価者の選択と多目的メタ質問がジェネレータの整合性と挙動にどのように影響するか。
- RQ4報酬ハッキングなどの失敗モードとメタ評価ベースの RL の一般化特性はどうなるか。
主な発見
- RLME は GSM8K で RLVR に匹敵する精度とサンプル効率を達成し、報告実験で 90% 以上の精度を超える。
- RLME は ground-truth 答えを一度も観測していないにもかかわらず、学習曲線で RLVR を密接に追従する。
- メタ評価はスケーラブルな報酬信号を提供し、後付の合理化よりも信頼性ある推論パターンへモデルを誘導できる。
- 複数の目的間でメタ質問と重みの設定を通じて制御可能なトレードオフをサポートする。
- RLME は ground-truth ラベルが利用できないオープンドメイン設定へ一般化し、LLM の RL ベース整合を広げる。
- 本研究はジェネレータ/評価者の選択、自己評価、および潜在的な報酬ハッキング行動の分析を提供し、長所と失敗モードを明確にしている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。