[论文解读] Robust Reinforcement Learning on State Observations with Learned Optimal Adversary
本文提出了 ATLA,一种交替训练框架,在线学习强大对手以扰动状态观测并训练鲁棒的 DRL 代理,在连续控制任务中对强对手的鲁棒性达到最先进水平。
We study the robustness of reinforcement learning (RL) with adversarially perturbed state observations, which aligns with the setting of many adversarial attacks to deep reinforcement learning (DRL) and is also important for rolling out real-world RL agent under unpredictable sensing noise. With a fixed agent policy, we demonstrate that an optimal adversary to perturb state observations can be found, which is guaranteed to obtain the worst case agent reward. For DRL settings, this leads to a novel empirical adversarial attack to RL agents via a learned adversary that is much stronger than previous ones. To enhance the robustness of an agent, we propose a framework of alternating training with learned adversaries (ATLA), which trains an adversary online together with the agent using policy gradient following the optimal adversarial attack framework. Additionally, inspired by the analysis of state-adversarial Markov decision process (SA-MDP), we show that past states and actions (history) can be useful for learning a robust agent, and we empirically find a LSTM based policy can be more robust under adversaries. Empirical evaluations on a few continuous control environments show that ATLA achieves state-of-the-art performance under strong adversaries. Our code is available at https://github.com/huanzhang12/ATLA_robust_RL.
研究动机与目标
- 在状态观测被对抗性扰动时,激发强化学习的鲁棒性。
- 表征 SA-MDP 框架下的最优对手并展示可在线学习。
- 提出 ATLA,以联合训练强大的对手和鲁棒代理。
- 探索历史(记忆)在鲁棒策略学习中的作用,并在连续控制任务上进行评估。
提出的方法
- 将状态观测扰动建模为 SA-MDP,在给定固定策略下推导最优对手。
- 将最优对手学习问题表述为 DRL 问题并通过策略梯度(PPO)进行训练。
- 提出算法 1,以对在线学习的对手在扰动集合 B(s) 上进行投影的方式进行训练。
- 提出算法 2(ATLA),在对手优化与代理优化之间交替更新。
- 使用基于 LSTM 的策略利用历史以在扰动下实现鲁棒性。
- 在对手固定时,给出 SA-MDP 与 POMDP 的理论联系。
实验结果
研究问题
- RQ1我们如何计算或近似一个在有界观测扰动下使代理回报最小化的最优对手?
- RQ2与先前的对抗性训练相比,使用学习到的对手的交替训练是否能提高 DRL 代理的鲁棒性?
- RQ3历史(记忆)对在状态扰动下的鲁棒 RL 是否有帮助,循环策略是否有帮助?
- RQ4在强对抗扰动下,ATLA 与现有的连续控制鲁棒性方法相比如何?
主要发现
- 学习得到的对手能够产生比以往攻击更强的扰动,从而更有效地降低代理的回报。
- ATLA 提高鲁棒性并在多项连续控制任务中对强对手实现了最先进的性能。
- 基于 LSTM 的策略在 SA-MDP/ATLA 设置中显示出比前馈策略更高的鲁棒性。
- ATLA 提供的鲁棒性收益可以补充对函数近似器的显式正则化。
- 最优对手学习不需要访问代理的策略梯度(黑盒对手)。
- 实证结果表明 ATLA 在若干环境中优于显式正则化方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。