Skip to main content
QUICK REVIEW

[论文解读] Does Fine-tuning by Reinforcement Learning Improve Generalization in Binary Speech Deepfake Detection?

XIN WANG, Ge Wanying|arXiv (Cornell University)|Mar 3, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

论文表明基于纯GRPO的强化学习微调能改善SSL基语音深伪检测模型的域外泛化,并且通常优于有监督微调和SFT+GRPO设置,负奖励在其中起关键作用。

ABSTRACT

Building speech deepfake detection models that are generalizable to unseen attacks remains a challenging problem. Although the field has shifted toward a pre-training and fine-tuning paradigm using speech foundation models, most approaches rely solely on supervised fine-tuning (SFT). Inspired by the field of large language models, wherein reinforcement learning (RL) is used for model fine-tuning, we investigate the impact of RL, specifically Group Relative Policy Optimization (GRPO). The results from experiments using multiple detectors and test sets indicate that pure GRPO-based fine-tuning improves performance on out-of-domain test sets while maintaining performance on target-domain test data. This approach outperforms both SFT-only and hybrid setups. Our ablation studies further suggest that the negative reward in GRPO may be a key factor in this improvement.

研究动机与目标

  • 为未见攻击与域提供鲁棒泛化的动机。
  • 评估基于强化学习的微调(GRPO)作为有监督微调的替代方案。
  • 在多种后训练的SSL前端上比较GRPO、SFT和SFT+GRPO。
  • 分析GRPO如何影响后训练获得的知识保留及其对领域漂移的影响。

提出的方法

  • 采用包含后训练的SSL前端(XLS-R-2B、MMS-1B、MMS-300M)的多阶段训练流程。
  • 使用有监督微调(SFT)、纯GRPO和GRPO变体进行微调。
  • 对二元输出(REAL/FAKE)应用简化的GRPO损失,具有/不具正则化,并采用类似on-policy的更新方案。
  • 将奖励定义为正确预测的0/1指示符,并使用GRPO在每个输入的多次样本上计算分组归一化的优势。
  • 设定GRPO超参数(G=64轮播,beta=0.04),并按照先前的DeepSeekMath和AntiDeepfake配方与SFT及GRPO变体进行比较。
  • 在域内集(DFE24)和域外集合(ADD23、FoR、DV、ItW)上进行评估,且包含多种发声时长。

实验结果

研究问题

  • RQ1GRPO微调是否比SFT在 unseen 深伪攻击和域上提升泛化?
  • RQ2GRPO如何影响微调过程中的后训练知识保留与灾难性遗忘?
  • RQ3GRPO组件(负奖励、正则化)在二元检测器的域外性能中起什么作用?

主要发现

  • 纯GRPO微调在多种后训练的检测器上提升域外检测性能。
  • GRPO倾向于保持与GRPO正向设置相似的域内性能,同时降低对未见数据的退化。
  • 没有负奖励的GRPO在域外测试中的表现较差,表明负奖励是关键因素。
  • GRPO中的正则化对某些域有帮助,但过强的正则化可能导致拟合不足。
  • 将GRPO应用于后训练模型在域外数据上优于SFT,而SFT在未见域上可能退化到相似或更糟的水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。