[论文解读] Learning to be Safe: Deep RL with a Safety Critic
本文提出安全Q学习(SQRL),一种深度强化学习框架,通过预训练安全评论家来估计失败概率,从而实现新任务的安全且高效的训练。通过使用学习到的安全评论家约束策略更新,SQRL将安全事件减少了最多3倍,并在导航、运动和操作任务中相比标准强化学习加速了稳定学习。
Safety is an essential component for deploying reinforcement learning (RL) algorithms in real-world scenarios, and is critical during the learning process itself. A natural first approach toward safe RL is to manually specify constraints on the policy's behavior. However, just as learning has enabled progress in large-scale development of AI systems, learning safety specifications may also be necessary to ensure safety in messy open-world environments where manual safety specifications cannot scale. Akin to how humans learn incrementally starting in child-safe environments, we propose to learn how to be safe in one set of tasks and environments, and then use that learned intuition to constrain future behaviors when learning new, modified tasks. We empirically study this form of safety-constrained transfer learning in three challenging domains: simulated navigation, quadruped locomotion, and dexterous in-hand manipulation. In comparison to standard deep RL techniques and prior approaches to safe RL, we find that our method enables the learning of new tasks and in new environments with both substantially fewer safety incidents, such as falling or dropping an object, and faster, more stable learning. This suggests a path forward not only for safer RL systems, but also for more effective RL systems.
研究动机与目标
- 解决在现实环境中部署强化学习时面临的安全挑战,其中安全至关重要,但手动指定约束条件不切实际。
- 使智能体能够逐步学习安全行为,将先前经验中的安全直觉迁移到新任务中。
- 开发一种方法,在学习过程中确保安全探索,而无需依赖手工设计的安全规则。
- 通过使用学习到的安全评论家约束策略,提高学习效率和稳定性。
提出的方法
- 使用动态规划预训练安全评论家 $Q_{\text{safe}}^{\bar{\pi}}$,以估计从状态-动作对出发的未来失败概率。
- 在微调过程中使用预训练的安全评论家来约束策略更新,确保仅选择失败概率较低的动作。
- 将安全评论家和策略的训练分为两个阶段:在安全关键环境中进行预训练,然后在新任务上结合安全约束进行微调。
- 施加安全阈值 $\epsilon_{\text{safe}}$ 以控制最大可接受的失败概率,实现风险水平的调节。
- 将安全评论家集成到SAC等标准深度强化学习算法中,确保与现代深度强化学习框架的兼容性。
- 利用离线数据或模拟经验预训练安全评论家,以覆盖失败案例,如跌倒或物体掉落。
实验结果
研究问题
- RQ1学习到的安全评论家是否能减少在新任务上进行深度强化学习训练过程中的安全事件数量?
- RQ2将安全评论家引入是否能带来比无约束强化学习更快且更稳定的学习效果?
- RQ3安全阈值 $\epsilon_{\text{safe}}$ 是否可用于控制风险与性能之间的权衡?
- RQ4一种与任务无关的安全评论家是否能泛化到更复杂的新任务中,例如灵巧操作?
主要发现
- 在2D导航任务中,与SAC相比,SQRL将跌倒事件减少了约67%,仅有5%的回合出现跌倒。
- 在Minitaur运动任务中,SQRL实现了更快的收敛速度并降低了失败率,其学习曲线显著更稳定,优于标准SAC。
- 在灵巧立方体旋转任务中,尽管由于行为谨慎导致性能略有下降,SQRL仍比所有对比方法更少掉落立方体。
- 安全阈值 $\epsilon_{\text{safe}}$ 有效控制了风险:当 $\epsilon_{\text{safe}} = 0.05$ 时,智能体完全避开了熔岩坑;而当 $\epsilon_{\text{safe}} = 0.2$ 时,它选择了更冒险的路径穿越熔岩坑。
- 学习曲线表明,SQRL的约束探索带来了更稳定且高效的训练过程,避免了SAC因不安全探索导致的大幅性能下降。
- 即使在原始任务的更难版本上进行微调时,安全评论家也实现了安全学习,证明了安全知识的可迁移性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。