[論文レビュー] Consensus Group Relative Policy Optimization for Text Generation
C-GRPOはMBRコンセンサスを単一パスの参照不要な方針学習法に抽出し、推論時の再ランキングを要さずにMTと要約においてMBRレベルの品質を達成します。
Many strong decoding methods for text generation follow a sample-and-rerank paradigm: they draw multiple candidates, score each under a utility (reward) function using consensus across samples, and return the best one. Although effective, these methods incur high computational costs during inference due to repeated sampling and scoring. Prior attempts to amortize inference-time computation typically rely on gold references, teacher labels, or curated preference data, increasing dataset construction effort and the demand for high-fidelity reward models. We propose Consensus Group Relative Policy Optimization (C-GRPO), which distills Minimum Bayes Risk (MBR) decoding into training by formulating the consensus utility as a group-relative objective within GRPO. C-GRPO requires only a utility function and policy samples, without gold references or explicit preference labels. Under ideal conditions, we show that the objective function of C-GRPO is directionally aligned with the gradient of the expected-utility objective underlying MBR decoding, leading to a convergence guarantee. Experiments on machine translation (WMT 2024) and text summarization (XSum) demonstrate that C-GRPO successfully achieves performance comparable to MBR decoding without the associated inference-time overhead, while outperforming reference-free baseline methods.
研究の動機と目的
- 推論時のコンセンサスベーステキスト生成コストを訓練への蒸留により削減する。
- タスクユーティリティ関数とオンポリシーサンプルのみを用いた報酬/モデルフリー学習を可能にする。
- 提案手法の理論的整合性と収束保証を提供する。
- 金標準リファレンスなしで機械翻訳と要約のベンチマークにおける有効性を示す。
提案手法
- グループ相対GRPO目的をグループ内のコンセンサスユーティリティを用いて定式化する。
- サンプルされた候補群内のペア間類似度の平均としてコンセンサスユーティリティを定義する(自己コンセンサス)。
- 明示的な報酬監督なしでグループ相対的優位を最大化する単一パス方針を訓練する。
- 期待されるGRPO更新が mildな仮定の下でターゲットMBR目的の勾配と一致することを証明する。
- MT(En→Ja/Zh/De)およびXSum要約で評価し、MBRおよびGRPOのベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1金標準リファレンスや明示的な嗜好データなしで、コンセンサスベースのデコーディングを単一パス方針へ蒸留できるか。
- RQ2C-GRPOは訓練更新をMBR目的の勾配と整合させ、収束は効率的か。
- RQ3MTと要約タスクでMBRおよび参照なしのベースラインと比べてC-GRPOはどのように性能を示すか。
- RQ4学習済み方針はモデルファミリとスケールに対してロバストか。
主な発見
| Model | Base Model/Method | ROUGE-Lsum ↑ (XSum) |
|---|---|---|
| Llama | Base Model | 0.361 |
| Llama | GRPO w/ Random | 0.320 |
| Llama | MBR decoding | 0.361 |
| Llama | GRPO w/ Self-Rewarding | 0.229 |
| Llama | SFT w/ MBR generations | 0.351 |
| Llama | C-GRPO (Ours) | 0.419 |
| Llama | C-Dr. GRPO (Ours) | 0.414 |
| Mistral | Base Model | 0.230 |
| Mistral | GRPO w/ Random | 0.222 |
| Mistral | MBR decoding | 0.245 |
| Mistral | GRPO w/ Self-Rewarding | 0.232 |
| Mistral | SFT (MBR decoding) | 0.233 |
| Mistral | C-GRPO (Ours) | 0.243 |
| Mistral | C-Dr.GRPO (Ours) | 0.231 |
- C-GRPOは推論時のリランキングを伴わずにMOSに近いMBR品質を達成し、MTと要約のMBRを上回ることが多い。
- C-GRPOはXSumでROUGE-Lsumを改善する傾向があり(0.419)、モデル間でMBRおよびGRPOベースラインを上回る。
- En→Ja/Zh/DeでLlamaおよびMistralを用いた場合、C-GRPOは方法間で最も強い平均COMETスコアを示す。
- C-Dr.GRPOはより保守的な更新を行う変種で、タスク間で強い性能と安定性を維持する。
- C-GRPOはモデルファミリ(Llama、Mistral、Qwen)とスケールに対してロバスト性を示し、要約で非常に小さなモデルでの一部劣化を除き一般に良好。
- JBBQの結果は日本語QAにおいて基盤モデルより精度を改善し、MBRおよび自己報酬ベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。