[论文解读] Delving into adversarial attacks on deep policies
本文研究对深度强化学习策略的对抗性攻击,比较对抗性扰动与随机噪声,使用价值函数引导来优化攻击时机,并评估再训练以提高鲁棒性。
Adversarial examples have been shown to exist for a variety of deep learning architectures. Deep reinforcement learning has shown promising results on training agent policies directly on raw inputs such as image pixels. In this paper we present a novel study into adversarial attacks on deep reinforcement learning polices. We compare the effectiveness of the attacks using adversarial examples vs. random noise. We present a novel method for reducing the number of times adversarial examples need to be injected for a successful attack, based on the value function. We further explore how re-training on random noise and FGSM perturbations affects the resilience against adversarial examples.
研究动机与目标
- 评估对深度强化学习策略的对抗样本相对于随机噪声的有效性。
- 评估降低扰动注入频率是否仍能实现有效攻击。
- 研究使用价值函数来安排对抗扰动的时机。
- 考察带噪声或对抗扰动的再训练如何提高鲁棒性,并对其他扰动幅度的迁移性进行评估。
- 为深度强化学习策略对抗性输入的响应提供初步见解。
提出的方法
- 在 42x42 灰度输入的 Atari Pong 上使用 TensorFlow A3C 实现。
- 使用策略对数输出与最大概率动作之间的交叉熵损失来生成 FGSM 扰动。
- 将 FGSM 攻击与基于 beta 的幅度的均匀随机噪声进行比较。
- 测试三种扰动时机策略:每 N 帧注入、每 N 帧重新计算、以及价值函数引导的注入。
- 在嘈杂环境中对代理进行再训练并评估对不同扰动幅度和类型的迁移。
- 可视化策略空间扰动以分析决策边界的碎片化。
实验结果
研究问题
- RQ1对 DRL 策略而言,对抗样本与随机噪声在攻击效果上有何差异?
- RQ2在不影响攻击效果的前提下,扰动能否更少频繁地注入?
- RQ3使用价值函数来引导扰动时机是否能提高攻击成功率?
- RQ4用噪声或 FGSM 扰动进行再训练是否会提高对 FGSM 及其他扰动的鲁棒性?
- RQ5扰动如何影响策略在图像空间中的决策边界及动作映射?
主要发现
- 在较低扰动幅度下,FGSM 对抗扰动在降低 DRL 策略性能方面比随机噪声有效几个数量级。
- 使用价值函数引导的注入在只需注入部分帧的情况下也能实现有效攻击。
- 每 N 帧重新计算扰动并在中间帧重复使用可达到逐帧注入的效果相当。
- 用随机噪声或 FGSM 扰动进行再训练可以提高对 FGSM 攻击的鲁棒性,并对不同扰动幅度有一定迁移。
- 再训练后的策略仍可能对其他攻击方法脆弱,且策略动作空间在再训练后仍可能保持碎片化。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。