QUICK REVIEW

[论文解读] Does Fine-tuning by Reinforcement Learning Improve Generalization in Binary Speech Deepfake Detection?

XIN WANG, Ge Wanying|arXiv (Cornell University)|Mar 3, 2026

Speech Recognition and Synthesis被引用 0

一句话总结

论文表明基于纯GRPO的强化学习微调能改善SSL基语音深伪检测模型的域外泛化，并且通常优于有监督微调和SFT+GRPO设置，负奖励在其中起关键作用。

ABSTRACT

Building speech deepfake detection models that are generalizable to unseen attacks remains a challenging problem. Although the field has shifted toward a pre-training and fine-tuning paradigm using speech foundation models, most approaches rely solely on supervised fine-tuning (SFT). Inspired by the field of large language models, wherein reinforcement learning (RL) is used for model fine-tuning, we investigate the impact of RL, specifically Group Relative Policy Optimization (GRPO). The results from experiments using multiple detectors and test sets indicate that pure GRPO-based fine-tuning improves performance on out-of-domain test sets while maintaining performance on target-domain test data. This approach outperforms both SFT-only and hybrid setups. Our ablation studies further suggest that the negative reward in GRPO may be a key factor in this improvement.

研究动机与目标

为未见攻击与域提供鲁棒泛化的动机。
评估基于强化学习的微调（GRPO）作为有监督微调的替代方案。
在多种后训练的SSL前端上比较GRPO、SFT和SFT+GRPO。
分析GRPO如何影响后训练获得的知识保留及其对领域漂移的影响。

提出的方法

采用包含后训练的SSL前端（XLS-R-2B、MMS-1B、MMS-300M）的多阶段训练流程。
使用有监督微调（SFT）、纯GRPO和GRPO变体进行微调。
对二元输出（REAL/FAKE）应用简化的GRPO损失，具有/不具正则化，并采用类似on-policy的更新方案。
将奖励定义为正确预测的0/1指示符，并使用GRPO在每个输入的多次样本上计算分组归一化的优势。
设定GRPO超参数（G=64轮播，beta=0.04），并按照先前的DeepSeekMath和AntiDeepfake配方与SFT及GRPO变体进行比较。
在域内集（DFE24）和域外集合（ADD23、FoR、DV、ItW）上进行评估，且包含多种发声时长。

实验结果

研究问题

RQ1GRPO微调是否比SFT在 unseen 深伪攻击和域上提升泛化？
RQ2GRPO如何影响微调过程中的后训练知识保留与灾难性遗忘？
RQ3GRPO组件（负奖励、正则化）在二元检测器的域外性能中起什么作用？

主要发现

纯GRPO微调在多种后训练的检测器上提升域外检测性能。
GRPO倾向于保持与GRPO正向设置相似的域内性能，同时降低对未见数据的退化。
没有负奖励的GRPO在域外测试中的表现较差，表明负奖励是关键因素。
GRPO中的正则化对某些域有帮助，但过强的正则化可能导致拟合不足。
将GRPO应用于后训练模型在域外数据上优于SFT，而SFT在未见域上可能退化到相似或更糟的水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。