Skip to main content
QUICK REVIEW

[論文レビュー] CARE-RFT: Confidence-Anchored Reinforcement Finetuning for Reliable Reasoning in Large Language Models

Shuozhe Li, Jincheng Cao|arXiv (Cornell University)|Jan 22, 2026
Topic Modeling被引用数 0
ひとこと要約

CARE-RFTは確信度を考慮したスキュー逆KLペナルティを導入し、LLMが大きな推論能力を発揮しつつキャリブレーションを保持し、幻覚を減らし、ベースモデルの信頼性と整合する形でRFTなしのRFTと同等の推論力を実現する。

ABSTRACT

Reinforcement finetuning (RFT) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models. However, we identify a critical trade-off: while unconstrained RFT achieves strong reasoning performance, it severely compromises model trustworthiness by amplifying hallucination and worsening calibration; conversely, RKL-constrained RFT preserves trustworthiness but limits reasoning gains due to its unbounded penalty on exploratory deviations. To resolve this tension, we introduce CARE-RFT (Confidence-Anchored Regularized Reinforcement Finetuning), a novel method that replaces standard reverse KL regularization with a skew reverse KL divergence. CARE-RFT provides a confidence-sensitive penalty: it is bounded for confident, consistently rewarded explorations to enable reasoning, while unbounded elsewhere to preserve calibration. Extensive experiments across multiple model scales and RFT algorithms show that CARE-RFT achieves a superior balance, matching the reasoning performance of unconstrained RFT while recovering the trustworthiness and calibration of the base model. Our work establishes that careful, confidence-aware regularization is key to building both capable and trustworthy reasoning models.

研究の動機と目的

  • 強化微調整(RFT)が推論品質と信頼性(キャリブレーションと幻覚傾向)に与える影響を調査する。
  • 無制約RFTと標準的な逆KL(RKL)正則化が推論と信頼性のバランスを取る際の限界を特定する。
  • キャリブレーションを保護しつつ自信をもって探索できるよう、SRKLペナルティを備えたCARE-RFTを提案する。
  • CARE-RFTがスケールを問わず、推論性能を無制約RFTと一致させつつベースモデルの信頼性を維持できることを示す。

提案手法

  • 成果ベースの報酬代理と参照方針への発散ペナルティを組み合わせた統一的なRFT目的関数を定式化する。
  • 標準の逆KLを確信度感知の正則化子であるスキュー逆KL(SRKL)に置換する。
  • 混合パラメータαを用いて、確信度が高く報酬と一致する探索には有界ペナルティを、それ以外には無限大に近いペナルティを課すSRKLを定義する。
  • SRKLの1トークンあたりの勾配係数がlog(1/α)で有界となり、安定した探索を可能にすることを示す。
  • CARE-RFTをGRPO風RFTのドロップイン正則化レイヤとして統合し、GRPO、DAPO、GSPOの各派生に適用する。
Figure 1: CARE-RFT breaks the accuracy–calibration trade-off. Across GRPO, DAPO, and GSPO on Qwen2.5-3B, unconstrained RL boosts accuracy but destroys calibration on MATH (Hendrycks et al. , 2021 ) and TruthfulQA (Lin et al. , 2021 ) , while RKL restores calibration at the cost of accuracy. CARE-RFT
Figure 1: CARE-RFT breaks the accuracy–calibration trade-off. Across GRPO, DAPO, and GSPO on Qwen2.5-3B, unconstrained RL boosts accuracy but destroys calibration on MATH (Hendrycks et al. , 2021 ) and TruthfulQA (Lin et al. , 2021 ) , while RKL restores calibration at the cost of accuracy. CARE-RFT

実験結果

リサーチクエスチョン

  • RQ1無制約RFTは推論力を高めるが、キャリブレーションや事実的信頼性を損なうのではないか。
  • RQ2RKLは探索を過度に抑制し、RFTにおける推論成長を制限するのではないか。
  • RQ3確信度に基づく正則化(SRKL)は、RKLや無制約法より推論性能と信頼性のバランスを改善するのか。
  • RQ4CARE-RFTは複数のRFTアルゴリズムとモデルスケールにまたがって、キャリブレーションを維持しつつ強力な推論を達成できるのか。

主な発見

MethodMATHGSM8KSelfAwareTruthfulQAECE ↓
Base Model0.4100.7910.3720.4890.102
GRPO (No Constraint)0.6100.8540.2490.3500.210
RKL-GRPO0.5100.8180.3510.4800.125
CARE-GRPO0.6000.8600.3550.4650.132
DAPO (No Constraint)0.6600.8890.2320.3120.240
RKL-DAPO0.5700.84320.3460.4780.129
CARE-DAPO0.6420.8720.3340.4610.134
GSPO (No Constraint)0.7010.9020.2430.3040.260
RKL-GSPO0.5900.86810.3410.4690.131
CARE-GSPO0.6930.9070.3320.4590.139
  • CARE-RFTはGRPO、DAPO、GSPOのいずれにおいても無制約RFTと推論性能を一貫して一致させる。
  • CARE-RFTはベースモデルに近いキャリブレーションを回復し、TruthfulQAでのECEを無制約RFTより低減する。
  • トークンのエントロピー分析は、CARE-RFTが無制約RFTのエントロピー崩壊を回避しつつ、RKLを超える意味ある推論利得を可能にすることを示す。
  • αのアブレーションでは、0 (RKL) から0.8へ増加させると性能が向上し、0.9を超えると劣化する。
  • CARE-RFTは複数スケール(3B, 7B)およびRFT派生で信頼性–キャリブレーションのトレードオフを改善する。
Figure 2: ECE plot comparing base model with its +Reward and -Reward Update checkpoints on TruthfulQA. Each plot visualizes the relationship between model confidence $\text{conf}(B_{m})$ —estimated via sampling and majority voting—and the actual correctness probability $\text{acc}(B_{m})$ . Models c
Figure 2: ECE plot comparing base model with its +Reward and -Reward Update checkpoints on TruthfulQA. Each plot visualizes the relationship between model confidence $\text{conf}(B_{m})$ —estimated via sampling and majority voting—and the actual correctness probability $\text{acc}(B_{m})$ . Models c

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。