[论文解读] Diagnosing Non-Intermittent Anomalies in Reinforcement Learning Policy Executions (Short Paper)
本文提出近端策略优化(PPO),一种简单、稳定且样本高效的强化学习算法,通过使用裁剪的替代目标函数来限制策略更新,确保在无需复杂信任区域约束的情况下实现可靠性能。PPO在连续控制基准测试和Atari游戏中取得了最先进结果,优于A2C,并与ACER相当,但复杂度显著更低。
Due to the safety risks and training sample inefficiency, it is often preferred to develop controllers in simulation. However, minor differences between the simulation and the real world can cause a significant sim-to-real gap. This gap can reduce the effectiveness of the developed controller. In this paper, we examine a case study of transferring an octorotor reinforcement learning controller from simulation to the real world. First, we quantify the effectiveness of the real-world transfer by examining safety metrics. We find that although there is a noticeable (around 100%) increase in deviation in real flights, this deviation may not be considered unsafe, as it will be within > 2m safety corridors. Then, we estimate the densities of the measurement distributions and compare the Jensen-Shannon divergences of simulated and real measurements. From this, we show that the vehicle’s orientation is significantly different between simulated and real flights. We attribute this to a different flight mode in real flights where the vehicle turns to face the next waypoint. We also find that the reinforcement learning controller actions appear to correctly counteract disturbance forces. Then, we analyze the errors of a measurement autoencoder and state transition model neural network applied to real data. We find that these models further reinforce the difference between the simulated and real attitude control, showing the errors directly on the flight paths. Finally, we discuss important lessons learned in the sim-to-real transfer of our controller.
研究动机与目标
- 开发一种强化学习算法,结合信任区域方法的样本效率和稳定性,以及标准策略梯度方法的简洁性和可扩展性。
- 解决现有方法的局限性:原始策略梯度方法样本效率低下,TRPO方法复杂度高,且与现代深度学习架构(如使用Dropout或参数共享的网络)不兼容。
- 设计一种一阶优化方法,实现在同一数据批次上进行多次梯度更新,同时防止策略发生破坏性变化。
- 在多样化的基准测试上评估该方法,包括MuJoCo连续控制任务和Atari游戏,以证明其在样本复杂度和鲁棒性方面的优越性。
提出的方法
- 提出裁剪的替代目标函数 LCLIP(θ) = E_t[min(r_t(θ)A_t, clip(r_t(θ), 1-ϵ, 1+ϵ)A_t)],作为策略改进的悲观下界。
- 使用概率比 r_t(θ) = π_θ(a_t|s_t)/π_θ_old(a_t|s_t) 衡量策略更新幅度,并通过裁剪防止更新过大。
- 在相同数据集上执行多个小批量随机梯度上升周期,提升样本效率。
- 采用保守更新策略:目标函数受裁剪版本限制,确保不会因策略发生过大偏移而获得改进。
- 使用简单的一阶优化方案(如Adam),无需共轭梯度或海森矩阵近似。
- 可对标准策略梯度框架进行极少代码修改即可实现,具有高度实用性。
实验结果
研究问题
- RQ1一种简单的一阶策略优化方法是否能在不引入TRPO复杂性的情况下,实现与TRPO相当的样本效率和稳定性?
- RQ2裁剪的替代目标函数是否能有效防止破坏性策略更新,同时允许多次对采样数据进行优化遍历?
- RQ3在连续控制和Atari任务中,PPO与A2C、ACER和TRPO相比,在样本效率和最终性能方面表现如何?
- RQ4PPO是否能在无需大量超参数调优的情况下,良好泛化到多样化环境中?
主要发现
- 当 ϵ = 0.2 时,PPO在连续控制基准测试中平均归一化得分为 0.82,优于所有其他设置和测试方法。
- 在MuJoCo环境中,PPO在几乎所有任务中均优于经过调优的A2C、带信任区域的A2C、自适应步长的原始策略梯度以及TRPO的实现。
- 在Atari基准测试中,PPO在整个训练周期内使用平均奖励,赢得了49款游戏中的30款,显著优于A2C(1场胜利)和ACER(18场胜利)。
- 在最后100场游戏期间,PPO赢得了19款游戏,优于A2C(1场胜利),并与ACER(28场胜利)持平,展现出强大的最终性能。
- 使用 ϵ = 0.2 的裁剪目标函数表现最佳,而自适应KL惩罚和固定β惩罚方法表现较差。
- PPO在复杂3D人形控制任务(包括向前奔跑、目标重定位和障碍物避让)中也表现出高绩效,证明了其在高维控制任务中的可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。