[论文解读] Robust Adversarial Reinforcement Learning
RARL 在一个施加干扰的对手下训练主角,形成极小极大最小化目标,以产生对不同条件更具鲁棒性的策略,从而在转移上表现更好。
Deep neural networks coupled with fast simulation and improved computation have led to recent successes in the field of reinforcement learning (RL). However, most current RL-based approaches fail to generalize since: (a) the gap between simulation and real world is so large that policy-learning approaches fail to transfer; (b) even if policy learning is done in real world, the data scarcity leads to failed generalization from training to test scenarios (e.g., due to different friction or object masses). Inspired from H-infinity control methods, we note that both modeling errors and differences in training and test scenarios can be viewed as extra forces/disturbances in the system. This paper proposes the idea of robust adversarial reinforcement learning (RARL), where we train an agent to operate in the presence of a destabilizing adversary that applies disturbance forces to the system. The jointly trained adversary is reinforced -- that is, it learns an optimal destabilization policy. We formulate the policy learning as a zero-sum, minimax objective function. Extensive experiments in multiple environments (InvertedPendulum, HalfCheetah, Swimmer, Hopper and Walker2d) conclusively demonstrate that our method (a) improves training stability; (b) is robust to differences in training/test conditions; and c) outperform the baseline even in the absence of the adversary.
研究动机与目标
- 旨在通过鲁棒策略学习来解决仿真到现实的差距和现实世界强化学习中的数据稀缺问题。
- 在训练期间将不确定性建模为对手施加的对抗性干扰。
- 在一个零和博弈中联合训练主角和强化对手,以提高鲁棒性。
- 展示在多任务控制中对环境变化的稳定性、鲁棒性提升以及对未见设置的转移性。
提出的方法
- 将策略学习形式化为一个包含主角和对手的两人零和马尔可夫博弈。
- 使用交替优化程序,先在固定对手的情况下训练主角,然后在固定主角的情况下训练对手。
- 对手在预定点施加干扰,以产生测试策略鲁棒性的困难轨迹。
- 对手策略被学习以最大化干扰,有效地抽样最坏情形轨迹。
- 策略更新使用带有神经网络函数近似的信任区域策略优化(TRPO)。
实验结果
研究问题
- RQ1对抗性干扰模型是否可以提高强化学习策略对建模误差和测试时变异性的鲁棒性?
- RQ2是否联合训练强化对手能够使策略在不同质量、摩擦和初始化条件下具有更好的泛化能力?
- RQ3在对抗性干扰和改变的测试条件下,RARL 的性能与标准强化学习基线(如 TRPO)相比如何?
主要发现
- 与 TRPO 在 HalfCheetah、Swimmer、Hopper、Walker2d 相比,RARL 在多次初始化下平均奖励更高且方差更低。
- 在对抗性干扰下,RARL 训练的策略比基线更具鲁棒性,保持更高的性能分位曲线。
- 用 RARL 训练的策略在质量和摩擦变化方面的泛化能力优于基线策略。
- 可视化显示对手施加直观的力,能够以可解释的方式动摇系统,与预期的物理挑战一致。
- 表1 报告平均奖励(± SD),其中在大多任务上 RARL 常常达到或超过基线(倒立摆、HalfCheetah、Swimmer、Hopper、Walker2d)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。