QUICK REVIEW

[论文解读] Robust Deep Reinforcement Learning with Adversarial Attacks

Anay Pattanaik, Zhenyi Tang|arXiv (Cornell University)|Dec 11, 2017

Adversarial Robustness in Machine Learning参考文献 16被引用 119

一句话总结

该论文为 DRL 设计对抗攻击以揭示鲁棒性不足，然后使用对抗训练在 Cart-Pole、Mountain Car、Hopper 和 Half Cheetah 环境中提高 DRL 对参数变化的鲁棒性。

ABSTRACT

This paper proposes adversarial attacks for Reinforcement Learning (RL) and then improves the robustness of Deep Reinforcement Learning algorithms (DRL) to parameter uncertainties with the help of these attacks. We show that even a naively engineered attack successfully degrades the performance of DRL algorithm. We further improve the attack using gradient information of an engineered loss function which leads to further degradation in performance. These attacks are then leveraged during training to improve the robustness of RL within robust control framework. We show that this adversarial training of DRL algorithms like Deep Double Q learning and Deep Deterministic Policy Gradients leads to significant increase in robustness to parameter variations for RL benchmarks such as Cart-pole, Mountain Car, Hopper and Half Cheetah environment.

研究动机与目标

阐述在机器人和安全关键环境中，由于参数和环境变化而引发的 DRL 鲁棒性问题的动机。
提出通过利用代理的价值函数来降低 DRL 性能的对抗攻击。
在鲁棒控制框架内开发对抗训练，以提升 DRL 在一系列参数下的鲁棒性。
演示在标准基准测试上，像 DDQN 和 DDPG 这样的 DRL 算法的鲁棒性改进。

提出的方法

将基于价值函数的强化学习的对抗攻击定义为在某一状态下增加采取最坏动作概率的扰动。
开发朴素和梯度基的攻击，在一个 l2 范围内对观测进行扰动以欺骗 DRL 代理。
引入一个梯度基的攻击，通过最小化来自策略分布的类似交叉熵的目标来定位最坏状态。
在训练中使用对抗扰动以实现鲁棒对抗训练，灵感来自鲁棒控制（CVaR）目标。
描述两种训练算法（Adv train），在 DRQN/DDPG 训练期间应用基于梯度的对抗扰动以实现鲁棒性。
讨论等价于鲁棒控制，即对手通过探索最坏情况参数变化来生成难以实现的轨迹。

实验结果

研究问题

RQ1 DRL 代理（DDQN 和 DDPG）对观测扰动有多脆弱？
RQ2是否可以利用对抗扰动来训练在广泛参数变化下仍具有鲁棒性的 DRL 代理？
RQ3在此强化学习设置中，梯度基对抗攻击是否优于朴素或基于 SGD 的攻击？
RQ4对抗训练在 Cart-Pole、Mountain Car、Hopper 和 Half-Cheetah 等连续控制基准测试中的表现有何影响？

主要发现

梯度基对抗攻击比朴素采样和基于 SGD 的方法更有效地降低了 DRL 的性能。
基于径向基函数（RBF）的 Q-learning 对对抗扰动表现出比 DDQN 更强的鲁棒性，可能归因于更平滑的函数逼近。
使用所提对抗攻击进行的对抗训练在 Cart-Pole、Mountain Car、Hopper、Half-Cheetah 的参数变化下显著提升鲁棒性。
经过对抗训练的 DDQN 和 DDPG 在广泛参数设定范围内的平均回报高于原生 DRL 基线。
这些攻击揭示了主流 DRL 算法的鲁棒性问题，并显示线性参数化的 RL 对此类攻击可能更鲁棒。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。