[论文解读] Silent Sabotage During Fine-Tuning: Few-Shot Rationale Poisoning of Compact Medical LLMs
论文在医疗领域的大型语言模型(LLMs)监督微调阶段引入 rationale-poisoning 攻击,显示少量带毒推理可悄无声息地降低目标医疗主题的表现,正确样本能缓解该效应。
Supervised fine-tuning (SFT) is essential for the development of medical large language models (LLMs), yet prior poisoning studies have mainly focused on the detectable backdoor attacks. We propose a novel poisoning attack targeting the reasoning process of medical LLMs during SFT. Unlike backdoor attacks, our method injects poisoned rationales into few-shot training data, leading to stealthy degradation of model performance on targeted medical topics. Results showed that knowledge overwriting was ineffective, while rationale poisoning caused significant decline on the accuracy of the target subject, as long as no correct samples of the same subject appear in the dataset. A minimum number and ratio of poisoned samples was needed to carry out an effective and stealthy attack, which was more efficient and accurate than catastrophic forgetting. We demonstrate though this study the risk of SFT-stage poisoning, hoping to spur more studies of defense in the sensitive medical domain.
研究动机与目标
- 在医疗 LLM 的 SFT 阶段动机化并形式化一个 poisoning 威胁。
- 证明对推理的 Poisoning(而非简单的知识覆盖)会降低目标推理能力。
- 识别实现有效、隐蔽攻击所需的最小被毒样本数量与比例。
- 将 poisoning 与 catastrophic forgetting 进行比较,以评估效率与隐蔽性。
提出的方法
- 以 MedQA(简体中文)作为发热相关问题的评估数据集。
- 在少量学习训练集中注入带有错误推理的被毒发热相关问答。
- 生成带有推理的正确发热相关与非发热问答,以控制遗忘。
- 在 GPU 硬件上对 Qwen3-4B-Base 进行 LoRA 微调,以评估 Poisoning 的影响。
- 评估发热相关与非发热准确率,以衡量定向效应与隐蔽性。
实验结果
研究问题
- RQ1在 SFT 过程中,推理毒化是否比简单知识覆盖更有效地削弱对目标医疗主题的推理能力?
- RQ2需要多少被毒样本的最小数量与比例才能显著降低发热相关的准确率?
- RQ3目标主题的正确样本如何影响推理毒化的成功?
- RQ4与通过知识注入实现 catastrophic forgetting 相比,推理毒化是否更高效且更具隐蔽性?
- RQ5推理深度(浅层 vs 深层)如何影响遗忘与毒化效能?
主要发现
- 在125个被毒样本和1300个正确样本的条件下,推理毒化显著降低发热相关准确率(下降8.2%),毒性比率为8.8%。
- 目标主题的正确样本在存在时可以抵消 poison 效应,降低攻击影响。
- 知识覆盖 Poisoning 未能降低发热相关准确率,凸显需要毒化推理而非简单映射。
- 深层推理的被毒推理导致比浅层推理更严重的灾难性遗忘,因此在攻击中倾向采用浅层推理。
- 毒化效率显示出最小毒化数量和比例;超过该点后,增加更多被毒样本将带来收益递减或隐蔽性下降。
- 与注入正确知识相比,推理毒化在极少的被毒样本下就能实现定向遗忘,显示更高的效率,但若过度则可能被发现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。