Skip to main content
QUICK REVIEW

[论文解读] Consensus Group Relative Policy Optimization for Text Generation

Yuki Ichihara, Yuu Jinnai|arXiv (Cornell University)|Feb 3, 2026
Topic Modeling被引用 0
一句话总结

C-GRPO 将 MBR 共识提炼为一次性策略训练方法,无需推理时重新排序即可在 MT 和摘要任务中达到 MBR 级别的质量。

ABSTRACT

Many strong decoding methods for text generation follow a sample-and-rerank paradigm: they draw multiple candidates, score each under a utility (reward) function using consensus across samples, and return the best one. Although effective, these methods incur high computational costs during inference due to repeated sampling and scoring. Prior attempts to amortize inference-time computation typically rely on gold references, teacher labels, or curated preference data, increasing dataset construction effort and the demand for high-fidelity reward models. We propose Consensus Group Relative Policy Optimization (C-GRPO), which distills Minimum Bayes Risk (MBR) decoding into training by formulating the consensus utility as a group-relative objective within GRPO. C-GRPO requires only a utility function and policy samples, without gold references or explicit preference labels. Under ideal conditions, we show that the objective function of C-GRPO is directionally aligned with the gradient of the expected-utility objective underlying MBR decoding, leading to a convergence guarantee. Experiments on machine translation (WMT 2024) and text summarization (XSum) demonstrate that C-GRPO successfully achieves performance comparable to MBR decoding without the associated inference-time overhead, while outperforming reference-free baseline methods.

研究动机与目标

  • 通过将共识基础文本生成的推理时成本蒸馏到训练阶段,降低推理成本。
  • 仅使用任务效用函数和在策略采样的样本来实现奖励/模型无关的训练。
  • 为所提出的方法提供理论对齐与收敛性保证。
  • 在没有 gold 参考的情况下,展示在机器翻译与摘要基准上的有效性。

提出的方法

  • 使用组内共识效用构建一个组相对 GRPO 目标函数(group-relative GRPO)。
  • 将共识效用定义为采样候选组内两两相似度的平均值(自我共识)。
  • 训练单次传递策略以最大化组相对优势,避免显式的奖励监督。
  • 证明在温和假设下,期望的 GRPO 更新与目标 MBR 目标的梯度对齐。
  • 在 MT(En→Ja/Zh/De)与 XSum 摘要上进行评估,并与 MBR 与 GRPO 基线进行比较。

实验结果

研究问题

  • RQ1共识基础的解码是否可在没有 gold 参考或显式偏好数据的情况下蒸馏为单次传递策略?
  • RQ2C-GRPO 是否将训练更新与 MBR 目标的梯度对齐,并且是否高效收敛?
  • RQ3在 MT 与摘要任务中,C-GRPO 相对于 MBR 与无参考基线的表现如何?
  • RQ4学习得到的策略是否对模型家族与规模具有鲁棒性?

主要发现

ModelBase Model/MethodROUGE-Lsum ↑ (XSum)
LlamaBase Model0.361
LlamaGRPO w/ Random0.320
LlamaMBR decoding0.361
LlamaGRPO w/ Self-Rewarding0.229
LlamaSFT w/ MBR generations0.351
LlamaC-GRPO (Ours)0.419
LlamaC-Dr. GRPO (Ours)0.414
MistralBase Model0.230
MistralGRPO w/ Random0.222
MistralMBR decoding0.245
MistralGRPO w/ Self-Rewarding0.232
MistralSFT (MBR decoding)0.233
MistralC-GRPO (Ours)0.243
MistralC-Dr.GRPO (Ours)0.231
  • C-GRPO 在推理阶段无需重新排序即可达到 MOS 类的 MBR 质量,在 MT 与摘要任务中达到甚至超过 MBR 的水平。
  • C-GRPO 在 XSum 上通常提升 ROUGE-Lsum(0.419),并且在翻译任务中对不同模型均优于 MBR 与 GRPO 基线。
  • 在 En→Ja/Zh/De,采用 Llama 与 Mistral 的设置中,C-GRPO 获得平均 COMET 分数最高。
  • C-Dr.GRPO(更保守更新的变体)在各任务中保持较强性能与稳定性。
  • C-GRPO 展示了对模型家族(Llama、Mistral、Qwen)和规模的鲁棒性,摘要任务在极小模型上仅有少量降级。
  • JBBQ 结果显示 C-GRPO 相较基础模型在日语问答中提升准确性,优于 MBR 与自我奖励基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。