QUICK REVIEW

[论文解读] Whatever Does Not Kill Deep Reinforcement Learning, Makes It Stronger

Vahid Behzadan, Arslan Munir|arXiv (Cornell University)|Dec 23, 2017

Adversarial Robustness in Machine Learning参考文献 12被引用 37

一句话总结

本文研究了深度Q网络（DQN）智能体在非连续训练时间与测试时间对抗性攻击下的鲁棒性与韧性。结果表明，DQN智能体可通过调整其策略从训练时间扰动中恢复，且在该类攻击下训练的策略对后续测试时间攻击表现出更强的鲁棒性，尤其在使用ε-greedy探索时，其对抗鲁棒性优于参数空间噪声。

ABSTRACT

Recent developments have established the vulnerability of deep Reinforcement Learning (RL) to policy manipulation attacks via adversarial perturbations. In this paper, we investigate the robustness and resilience of deep RL to training-time and test-time attacks. Through experimental results, we demonstrate that under noncontiguous training-time attacks, Deep Q-Network (DQN) agents can recover and adapt to the adversarial conditions by reactively adjusting the policy. Our results also show that policies learned under adversarial perturbations are more robust to test-time attacks. Furthermore, we compare the performance of $ε$-greedy and parameter-space noise exploration methods in terms of robustness and resilience against adversarial perturbations.

研究动机与目标

研究DQN智能体在非连续训练时间对抗性攻击下的韧性与鲁棒性。
评估在对抗性扰动下训练的策略在非对抗性测试时间条件下的性能表现。
比较ε-greedy与参数空间噪声探索在对抗性条件下提升韧性与鲁棒性的有效性。
识别对抗性训练过程中策略性能的相变点，表明从扰动中恢复的迹象。
通过分析探索方法对鲁棒性的影响，为安全深度强化学习设计提供洞见。

提出的方法

以概率P(attack)应用非连续的训练时间攻击，其中每个观测值独立地以该概率被扰动。
在训练和测试阶段均使用基于FGSM的对抗性扰动，以模拟最坏情况的攻击场景。
在Atari 2600环境中，对比使用ε-greedy与基于NoisyNet的参数空间噪声探索的DQN智能体。
通过训练与测试回合的平均回报衡量性能，并在策略退化与恢复曲线中识别相变点。
在Pong与Breakout环境中开展实验，以评估在对抗性条件下的韧性、鲁棒性与性能表现。
对不同攻击概率（p = 0.2, 0.4, 0.8, 1.0）下的策略恢复与鲁棒性进行统计分析。

实验结果

研究问题

RQ1在非连续训练时间攻击下，DQN智能体的性能在何种攻击概率下从退化过渡到恢复？
RQ2对抗性训练在多大程度上增强了DQN策略对后续测试时间对抗性攻击的鲁棒性？
RQ3在对抗性训练与测试时间条件下，哪种探索策略——ε-greedy或参数空间噪声——展现出更好的韧性与鲁棒性？
RQ4在对抗性扰动下训练是否会影响DQN智能体在非对抗性测试时间环境中的性能？
RQ5探索方法与达到对抗性训练中相变与恢复所需迭代次数之间存在何种关系？

主要发现

在非连续训练时间攻击下训练的DQN智能体（p < 1.0）表现出一个相变点，超过该点后策略性能恢复，表明其对对抗性扰动具有韧性。
在对抗性扰动下训练的策略（p = 0.2与p = 0.4）在非对抗性测试时间条件下表现几乎与无扰动策略相当，表明其性能得以保留。
ε-greedy探索在对抗测试时间攻击下展现出优于参数空间噪声的鲁棒性，且在Breakout与Pong环境中均表现出更高的平均回报。
NoisyNet智能体比ε-greedy智能体更早达到相变与恢复点，表明其可能具有更好的韧性，尽管鲁棒性较低。
经对抗性训练的策略对测试时间的FGSM攻击显著优于无扰动策略，证实了对抗性预训练的优势。
在高攻击概率（p = 0.8，p = 1.0）下性能退化严重，但当攻击频率低于临界阈值时，恢复仍有可能实现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。