[论文解读] Diffusion-Guided Backdoor Attacks in Real-World Reinforcement Learning
DGBA 使用扩散生成的可打印地板补丁和基于优势的中毒在具安全约束控制的现实世界强化学习中激活定向后门行为,在真实 TurtleBot3 部署中优于现有的 RL 后门方法。
Backdoor attacks embed hidden malicious behaviors in reinforcement learning (RL) policies and activate them using triggers at test time. Most existing attacks are validated only in simulation, while their effectiveness in real-world robotic systems remains unclear. In physical deployment, safety-constrained control pipelines such as velocity limiting, action smoothing, and collision avoidance suppress abnormal actions, causing strong attenuation of conventional backdoor attacks. We study this previously overlooked problem and propose a diffusion-guided backdoor attack framework (DGBA) for real-world RL. We design small printable visual patch triggers placed on the floor and generate them using a conditional diffusion model that produces diverse patch appearances under real-world visual variations. We treat the robot control stack as a black-box system. We further introduce an advantage-based poisoning strategy that injects triggers only at decision-critical training states. We evaluate our method on a TurtleBot3 mobile robot and demonstrate reliable activation of targeted attacks while preserving normal task performance. Demo videos and code are available in the supplementary material.
研究动机与目标
- 识别在现实世界部署中,安全约束控制栈如何削弱常规 RL 后门攻击。
- 提出一种扩散引导的后门框架,利用感知层触发器在现实世界变化下仍保持有效性。
- 证明扩散生成的补丁和定向中毒在现实世界实验中优于现有攻击。
提出的方法
- 在感知层使用一个小型可打印地板补 patch 作为触发器。
- 使用条件扩散模型生成补丁外观,以应对现实世界视觉变异。
- 通过物理风格变换扩充扩散样本,以弥合仿真与现实之间的差距。
- 将基于优势的中毒应用于在决策关键的训练状态下仅注入触发器。
- 将安全约束控制栈视为黑箱,在控制过滤后优化目标行为。
- 在三阶段流程中训练与部署:模拟干净 PPO、在稀疏扩散触发中毒下进行微调,并在真实控制器的 TurtleBot3 上测试。
实验结果
研究问题
- RQ1当安全约束控制栈在真实机器人上抑制异常动作时,后门触发器仍然有效吗?
- RQ2在现实世界视觉变异下,基于扩散的触发器生成是否比固定补丁具有更强的鲁棒性?
- RQ3在有限中毒预算下,集中对决策关键状态的中毒是否提高攻击效率?
- RQ4在现实世界部署中,攻击能否跨 RL 算法(PPO 与 TRPO)泛化?
主要发现
| 方法 | CSR (%) | ASR (%) |
|---|---|---|
| Clean PPO (no attack) | 91.1 | - |
| TrojDRL Kiourti et al. (2019) | 85.6 | 34.5 |
| BadRL Cui et al. (2024) | 87.3 | 57.0 |
| SleeperNets Rathbun et al. (2024) | 88.7 | 21.3 |
| DGBA (ours) | 89.1 | 83.5 |
- DGBA 在真实 TurtleBot3 测试中实现了高攻击成功率,同时保持了干净任务表现。
- DGBA 在 PPO 受害者上达到 ASR 83.5%、CSR 89.1%,优于基线。
- 在具安全约束部署下,DGBA 的 ASR 优于 TrojDRL、BadRL 与 SleeperNets。
- 消融实验表明扩散与物理风格增强对实现高 ASR 和稳定激活至关重要。
- 在跨算法(TRPO)评估中攻击有效性仍然存在,DGBA 取得最高 ASR(76.3%)。
- 更高的中毒率可以提高 ASR,但可能降低 CSR,存在权衡。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。