[论文解读] Does Fine-tuning by Reinforcement Learning Improve Generalization in Binary Speech Deepfake Detection?
论文表明基于纯GRPO的强化学习微调能改善SSL基语音深伪检测模型的域外泛化,并且通常优于有监督微调和SFT+GRPO设置,负奖励在其中起关键作用。
Building speech deepfake detection models that are generalizable to unseen attacks remains a challenging problem. Although the field has shifted toward a pre-training and fine-tuning paradigm using speech foundation models, most approaches rely solely on supervised fine-tuning (SFT). Inspired by the field of large language models, wherein reinforcement learning (RL) is used for model fine-tuning, we investigate the impact of RL, specifically Group Relative Policy Optimization (GRPO). The results from experiments using multiple detectors and test sets indicate that pure GRPO-based fine-tuning improves performance on out-of-domain test sets while maintaining performance on target-domain test data. This approach outperforms both SFT-only and hybrid setups. Our ablation studies further suggest that the negative reward in GRPO may be a key factor in this improvement.
研究动机与目标
- 为未见攻击与域提供鲁棒泛化的动机。
- 评估基于强化学习的微调(GRPO)作为有监督微调的替代方案。
- 在多种后训练的SSL前端上比较GRPO、SFT和SFT+GRPO。
- 分析GRPO如何影响后训练获得的知识保留及其对领域漂移的影响。
提出的方法
- 采用包含后训练的SSL前端(XLS-R-2B、MMS-1B、MMS-300M)的多阶段训练流程。
- 使用有监督微调(SFT)、纯GRPO和GRPO变体进行微调。
- 对二元输出(REAL/FAKE)应用简化的GRPO损失,具有/不具正则化,并采用类似on-policy的更新方案。
- 将奖励定义为正确预测的0/1指示符,并使用GRPO在每个输入的多次样本上计算分组归一化的优势。
- 设定GRPO超参数(G=64轮播,beta=0.04),并按照先前的DeepSeekMath和AntiDeepfake配方与SFT及GRPO变体进行比较。
- 在域内集(DFE24)和域外集合(ADD23、FoR、DV、ItW)上进行评估,且包含多种发声时长。
实验结果
研究问题
- RQ1GRPO微调是否比SFT在 unseen 深伪攻击和域上提升泛化?
- RQ2GRPO如何影响微调过程中的后训练知识保留与灾难性遗忘?
- RQ3GRPO组件(负奖励、正则化)在二元检测器的域外性能中起什么作用?
主要发现
- 纯GRPO微调在多种后训练的检测器上提升域外检测性能。
- GRPO倾向于保持与GRPO正向设置相似的域内性能,同时降低对未见数据的退化。
- 没有负奖励的GRPO在域外测试中的表现较差,表明负奖励是关键因素。
- GRPO中的正则化对某些域有帮助,但过强的正则化可能导致拟合不足。
- 将GRPO应用于后训练模型在域外数据上优于SFT,而SFT在未见域上可能退化到相似或更糟的水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。