QUICK REVIEW

[論文レビュー] Learn More with Less: Uncertainty Consistency Guided Query Selection for RLVR

Hao Yi, Yulan Hu|arXiv (Cornell University)|Jan 30, 2026

Advanced Graph Neural Networks被引用数 0

ひとこと要約

本論文はRLVRのラベリングコストを削減するため、不確実性一貫性に基づく能動的クエリ選択を導入し、オンライン・オフラインのいずれかで全データと同等の性能を、データの30%程度で達成する。

ABSTRACT

Large Language Models (LLMs) have recently improved mathematical reasoning through Reinforcement Learning with Verifiable Reward (RLVR). However, existing RLVR algorithms require large query budgets, making annotation costly. We investigate whether fewer but more informative queries can yield similar or superior performance, introducing active learning (AL) into RLVR. We identify that classic AL sampling strategies fail to outperform random selection in this setting, due to ignoring objective uncertainty when only selecting by subjective uncertainty. This work proposes an uncertainty consistency metric to evaluate how well subjective uncertainty aligns with objective uncertainty. In the offline setting, this alignment is measured using the Point-Biserial Correlation Coefficient (PBC). For online training, because of limited sampling and dynamically shifting output distributions, PBC estimation is difficult. Therefore, we introduce a new online variant, computed from normalized advantage and subjective uncertainty. Theoretically, we prove that the online variant is strictly negatively correlated with offline PBC and supports better sample selection. Experiments show our method consistently outperforms random and classic AL baselines, achieving full-dataset performance while training on only 30% of the data, effectively reducing the cost of RLVR for reasoning tasks.

研究の動機と目的

注釈コストを削減しつつ数学的推論のためのデータ効率的なRLVRを動機づける。
従来のアクティブラーニングがRLVRに対してうまく機能しない理由を、主観的不確実性と客観的不確実性の不整合に基づいて調査する。
クエリ選択を導くオフラインおよびオンラインの不確実性一貫性指標を提案する。
オンライン指標の理論的正当性と、それがオフライン不確実性一貫性とどう関係するかを示す。
複数のモデルとタスクにおいて、30%のデータで全データ性能に到達または上回ることを実証する。

提案手法

学習済み critic を用いず動作する RLVR 損失を定義し、グループごとに正規化された利得を用いる（式1）。
参照モデルからの応答をサンプリングして perplexity を計算することで主観的不確実性を推定する（式3）。
オフライン不確実性一貫性 r_pb を導入し、最も整合性が強いサンプルの下位 p% を選択する（式4）。
正規化された利得と現在の不確実性に基づくオンライン不確実性一貫性 r_pb^{online} を導入する（式5）。
Cov(r_pb, r_pb^{online}) < 0 を証明し、r_pb^{online} を最大化することがサンプル不確実性の低減の最大化に近づくことを定理1・定理2で示す。
GRPO および他の RLVR ベースラインに対して、MATH および GSM8K 上で複数モデルを用いてオフラインおよびオンラインのクエリ選択を評価する。

実験結果

リサーチクエスチョン

RQ1RLVR で少なくともより情報量の多い問い合わせを行うことで、全データを使用した場合と同等の性能が得られるか。
RQ2なぜ古典的な AL 戦略が RLVR で失敗し、不確実性一貫性がサンプル効率を改善できるのか。
RQ3主観的モデル不確実性を客観的推論難易度と整合させるオフラインおよびオンライン指標の設計方法は。
RQ4オンライン不確実性一貫性の導入は、ラベルデータの一部でほぼ全データ性能に近づくのか。

主な発見

Model	Dataset	Method	GSM8K OFF	GSM8K ON	MATH OFF	MATH ON
Q-7B	GSM8K	Full	91.5	91.5	73.2	73.2
Q-7B	GSM8K	Random	88.6	88.1	70.8	68.2
Q-7B	GSM8K	PPL	88.9	90.4	71.0	72.1
Q-7B	GSM8K	ENT	88.4	90.3	70.3	71.8
Q-7B	GSM8K	K-center	88.1	-	70.5	-
Q-7B	GSM8K	AskLLM	87.8	-	69.8	-
Q-7B	GSM8K	Active Prompt	85.2	-	65.1	-
Q-7B	GSM8K	ZS-CAL	84.3	-	64.0	-
Q-7B	GSM8K	r_pb (Ours)	90.1 (+1.5%)	-	72.1 (+1.3%)	-
Q-7B	GSM8K	r_pb^{online} (Ours)	-	91.7 (+2.4%)	-	72.9 (+4.7%)

オフライン: オフライン不確実性一貫性 r_pb で下位 30% を選択する方法は、ランダムや古典的 AL ベースラインより優れているが、全データには及ばない。
オンライン: オンライン不確実性一貫性 r_pb^{online} で上位 30% を選択する方法は、ランダムを大きく上回り、いくつかの設定で全データ性能と同等以上を達成する（例: Q-7B GSM8K 91.7 対 91.5 全データ）。
モデルとタスクを跨いで、オンライン一貫性サンプリング（30% データ）は、いくつかのケースで全データ RLVR より同等以上の結果を達成（例: Q-7B MATH 73.2 全データ対 72.9 オンライン r_pb^{online}）
アブレーションにより、一貫性サンプルは不整合サンプルおよび最適目標不確実性を選択するサンプルよりも優れており、これらは性能を低下させる可能性があることを示す。
理論的な結果はオフラインとオンラインの指標間に負の相関を確立し、オンライン一貫性の最大化がサンプル不確実性の減少と一致することを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。