[論文レビュー] CARE-RFT: Confidence-Anchored Reinforcement Finetuning for Reliable Reasoning in Large Language Models
CARE-RFTは確信度を考慮したスキュー逆KLペナルティを導入し、LLMが大きな推論能力を発揮しつつキャリブレーションを保持し、幻覚を減らし、ベースモデルの信頼性と整合する形でRFTなしのRFTと同等の推論力を実現する。
Reinforcement finetuning (RFT) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models. However, we identify a critical trade-off: while unconstrained RFT achieves strong reasoning performance, it severely compromises model trustworthiness by amplifying hallucination and worsening calibration; conversely, RKL-constrained RFT preserves trustworthiness but limits reasoning gains due to its unbounded penalty on exploratory deviations. To resolve this tension, we introduce CARE-RFT (Confidence-Anchored Regularized Reinforcement Finetuning), a novel method that replaces standard reverse KL regularization with a skew reverse KL divergence. CARE-RFT provides a confidence-sensitive penalty: it is bounded for confident, consistently rewarded explorations to enable reasoning, while unbounded elsewhere to preserve calibration. Extensive experiments across multiple model scales and RFT algorithms show that CARE-RFT achieves a superior balance, matching the reasoning performance of unconstrained RFT while recovering the trustworthiness and calibration of the base model. Our work establishes that careful, confidence-aware regularization is key to building both capable and trustworthy reasoning models.
研究の動機と目的
- 強化微調整(RFT)が推論品質と信頼性(キャリブレーションと幻覚傾向)に与える影響を調査する。
- 無制約RFTと標準的な逆KL(RKL)正則化が推論と信頼性のバランスを取る際の限界を特定する。
- キャリブレーションを保護しつつ自信をもって探索できるよう、SRKLペナルティを備えたCARE-RFTを提案する。
- CARE-RFTがスケールを問わず、推論性能を無制約RFTと一致させつつベースモデルの信頼性を維持できることを示す。
提案手法
- 成果ベースの報酬代理と参照方針への発散ペナルティを組み合わせた統一的なRFT目的関数を定式化する。
- 標準の逆KLを確信度感知の正則化子であるスキュー逆KL(SRKL)に置換する。
- 混合パラメータαを用いて、確信度が高く報酬と一致する探索には有界ペナルティを、それ以外には無限大に近いペナルティを課すSRKLを定義する。
- SRKLの1トークンあたりの勾配係数がlog(1/α)で有界となり、安定した探索を可能にすることを示す。
- CARE-RFTをGRPO風RFTのドロップイン正則化レイヤとして統合し、GRPO、DAPO、GSPOの各派生に適用する。

実験結果
リサーチクエスチョン
- RQ1無制約RFTは推論力を高めるが、キャリブレーションや事実的信頼性を損なうのではないか。
- RQ2RKLは探索を過度に抑制し、RFTにおける推論成長を制限するのではないか。
- RQ3確信度に基づく正則化(SRKL)は、RKLや無制約法より推論性能と信頼性のバランスを改善するのか。
- RQ4CARE-RFTは複数のRFTアルゴリズムとモデルスケールにまたがって、キャリブレーションを維持しつつ強力な推論を達成できるのか。
主な発見
| Method | MATH | GSM8K | SelfAware | TruthfulQA | ECE ↓ |
|---|---|---|---|---|---|
| Base Model | 0.410 | 0.791 | 0.372 | 0.489 | 0.102 |
| GRPO (No Constraint) | 0.610 | 0.854 | 0.249 | 0.350 | 0.210 |
| RKL-GRPO | 0.510 | 0.818 | 0.351 | 0.480 | 0.125 |
| CARE-GRPO | 0.600 | 0.860 | 0.355 | 0.465 | 0.132 |
| DAPO (No Constraint) | 0.660 | 0.889 | 0.232 | 0.312 | 0.240 |
| RKL-DAPO | 0.570 | 0.8432 | 0.346 | 0.478 | 0.129 |
| CARE-DAPO | 0.642 | 0.872 | 0.334 | 0.461 | 0.134 |
| GSPO (No Constraint) | 0.701 | 0.902 | 0.243 | 0.304 | 0.260 |
| RKL-GSPO | 0.590 | 0.8681 | 0.341 | 0.469 | 0.131 |
| CARE-GSPO | 0.693 | 0.907 | 0.332 | 0.459 | 0.139 |
- CARE-RFTはGRPO、DAPO、GSPOのいずれにおいても無制約RFTと推論性能を一貫して一致させる。
- CARE-RFTはベースモデルに近いキャリブレーションを回復し、TruthfulQAでのECEを無制約RFTより低減する。
- トークンのエントロピー分析は、CARE-RFTが無制約RFTのエントロピー崩壊を回避しつつ、RKLを超える意味ある推論利得を可能にすることを示す。
- αのアブレーションでは、0 (RKL) から0.8へ増加させると性能が向上し、0.9を超えると劣化する。
- CARE-RFTは複数スケール(3B, 7B)およびRFT派生で信頼性–キャリブレーションのトレードオフを改善する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。