[论文解读] Action Robust Reinforcement Learning and Applications in Continuous Control
本文正式提出两种在动作不确定性下的行动鲁棒性标准(PR-MDP 和 NR-MDP),为 PR-MDP 提供理论保证,并通过深度强化学习扩展和 AR-DDPG 在连续控制任务中展示了鲁棒性和性能的提升。
A policy is said to be robust if it maximizes the reward while considering a bad, or even adversarial, model. In this work we formalize two new criteria of robustness to action uncertainty. Specifically, we consider two scenarios in which the agent attempts to perform an action $a$, and (i) with probability $α$, an alternative adversarial action $\bar a$ is taken, or (ii) an adversary adds a perturbation to the selected action in the case of continuous action space. We show that our criteria are related to common forms of uncertainty in robotics domains, such as the occurrence of abrupt forces, and suggest algorithms in the tabular case. Building on the suggested algorithms, we generalize our approach to deep reinforcement learning (DRL) and provide extensive experiments in the various MuJoCo domains. Our experiments show that not only does our approach produce robust policies, but it also improves the performance in the absence of perturbations. This generalization indicates that action-robustness can be thought of as implicit regularization in RL problems.
研究动机与目标
- 在现实世界的连续控制任务中,激励对动作不确定性的鲁棒性。
- 引入两种鲁棒性标准(PR-MDP 和 NR-MDP),用于对抗性或扰动动作的建模。
- 建立 PR-MDP 和 NR-MDP 的理论特性与对偶性,并推导策略迭代算法。
- 扩展到深度强化学习并通过大量 MuJoCo 实验验证鲁棒性与泛化能力。
提出的方法
- 将 PR-MDP 定义为一个零和博弈,其中以概率 alpha 对手方采取更差的动作,并推导最大-最小目标。
- 定义 NR-MDP,其中对手方对所选动作添加扰动,并分析其性质。
- 证明 PR-MDP 的确定性稳定策略最优存在性以及强对偶性。
- 提出 PR-MDP 的策略迭代算法(概率鲁棒 PI 和 Soft PR-PI),并讨论其收敛性。
- 通过整合 actor 与对手网络以及用于联合动作的 critic,开发面向连续控制的行动鲁棒性 DDPG(AR-DDPG)。
- 提供在 PR- 和 NR-MDP 设置下针对 actor 与 adversary 的基于梯度的更新规则(命题 5)。
实验结果
研究问题
- RQ1如何在强化学习中对动作不确定性进行形式化建模以产生鲁棒策略?
- RQ2PR-MDP 和 NR-MDP 框架的理论性质(存在性、对偶性、收敛性)是什么?
- RQ3这些行动鲁棒标准能否扩展到深度强化学习,并在实际中仍然产生鲁棒,甚至改进的性能?
- RQ4动作鲁棒方法是否能在不同 MuJoCo 领域之间迁移,并在不同扰动强度下表现如何?
- RQ5在连续控制中,概率性行动鲁棒性(PR-MDP)与噪声行动鲁棒性(NR-MDP)之间的实际行为与权衡是怎样的?
主要发现
- PR-MDP 具有明确的价值并且在强对偶性下存在确定性静态最优策略。
- NR-MDP 通常需要随机策略以达到最优,且在确定性策略族中可能不成立强对偶性。
- Soft PR-PI 在无错误条件下收敛到纳什均衡值,PR-PI 也同样收敛;二者都利用代理方与对手方的混合更新。
- AR-DDPG 作为 DRL 实例,能够在 MuJoCo 领域学习鲁棒策略,且在无扰动时也常常提升性能,表明行动鲁棒性起到了隐式正则化的作用。
- 实证结果表明超参数(如 alpha)会影响鲁棒性和性能,在许多设置中,PR-MDP 相较 NR-MDP在跨域表现更为稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。