[论文解读] Cautious Adaptation For Reinforcement Learning in Safety-Critical Settings
本文提出了一种针对强化学习的安全关键型适应框架,其中智能体将来自模拟源环境的风险意识行为迁移至现实世界目标环境,以应对高失败成本的场景。通过使用强化学习中的谨慎适应(CARL),智能体在预训练阶段构建概率动力学模型以估计不确定性,并在适应阶段采用风险规避规划,从而在驾驶、控制和操作任务中,相较于强基线方法,实现了更高的奖励与显著更少的灾难性失败。
Reinforcement learning (RL) in real-world safety-critical target settings like urban driving is hazardous, imperiling the RL agent, other agents, and the environment. To overcome this difficulty, we propose a "safety-critical adaptation" task setting: an agent first trains in non-safety-critical "source" environments such as in a simulator, before it adapts to the target environment where failures carry heavy costs. We propose a solution approach, CARL, that builds on the intuition that prior experience in diverse environments equips an agent to estimate risk, which in turn enables relative safety through risk-averse, cautious adaptation. CARL first employs model-based RL to train a probabilistic model to capture uncertainty about transition dynamics and catastrophic states across varied source environments. Then, when exploring a new safety-critical environment with unknown dynamics, the CARL agent plans to avoid actions that could lead to catastrophic states. In experiments on car driving, cartpole balancing, half-cheetah locomotion, and robotic object manipulation, CARL successfully acquires cautious exploration behaviors, yielding higher rewards with fewer failures than strong RL adaptation baselines. Website at https://sites.google.com/berkeley.edu/carl.
研究动机与目标
- 解决在失败成本高昂的安全关键现实环境部署强化学习的挑战。
- 通过利用多样化、非安全关键的源领域先前经验,实现在新环境中的快速、安全适应。
- 开发一种在未知目标环境中探索期间估计不确定性并强制执行风险规避行为的方法。
- 证明风险规避适应在样本效率和安全性方面优于标准强化学习与元学习基线方法。
提出的方法
- 使用基于模型的强化学习,在多样化源环境中预训练环境动力学与灾难发生可能性的概率模型。
- 使用变分推断估计动力学模型中的认知不确定性,捕捉对可能结果的分布不确定性。
- 在新目标环境的适应阶段,使用最小化进入灾难性状态概率的风险规避目标来规划动作。
- 将来自谨慎探索的新经验整合到动力学模型中,迭代优化预测并提升置信度。
- 应用带有安全约束的风险规避规划,惩罚导致失败状态高概率的行动。
- 结合基于状态和基于奖励的风险建模,评估不同风险规避策略对性能与安全的影响。
实验结果
研究问题
- RQ1能否从多样化、非安全关键的源环境迁移知识,以实现在新高成本目标环境中的安全适应?
- RQ2基于学习到的不确定性的风险规避规划如何提升样本效率并减少适应过程中的灾难性失败?
- RQ3基于模型的方法若能估计认知不确定性,是否能在安全关键适应任务中超越元学习与标准强化学习基线?
- RQ4规划过程中涌现出的定性风险规避行为是什么?这些行为是否可解释且适用于任务?
主要发现
- 在使用更长横杆的CartPole环境中,CARL实现了高于70的更高回报,并延迟了灾难性失败,而所有基线方法在10次适应步骤内均未显著改善。
- 在半蝎(Half-Cheetah)环境中,前腿失效的情况下,CARL(State)在整个适应过程中保持了最高奖励,而PPO-MAML与RARL: 2x Itr未能成功适应。
- 在Duckietown环境中,CARL(State)随时间减少了碰撞频率,且是唯一成功完成转弯的方法,而其他方法几乎每集都发生碰撞。
- 在Baoding环境中,CARL(State)显著减少了掉球次数,且从首次适应试运行起就获得了明显更高的奖励。
- CARL(State)展示了可解释的风险规避行为,如更宽的转弯、更慢的速度以及倒车完成转弯,而标准智能体则不具备这些行为。
- 风险规避规划策略使CARL在分布外环境(如CartPole和Duckietown中最远的测试设置)中仍能维持更高性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。