[论文解读] Conservative Safety Critics for Exploration
CSC 学习一个保守的安全评估器,在强化学习探索中界定灾难性失败的上限,实现可证明的失败界限下的安全数据收集,同时保持竞争性的任务表现。
Safe exploration presents a major challenge in reinforcement learning (RL): when active data collection requires deploying partially trained policies, we must ensure that these policies avoid catastrophically unsafe regions, while still enabling trial and error learning. In this paper, we target the problem of safe exploration in RL by learning a conservative safety estimate of environment states through a critic, and provably upper bound the likelihood of catastrophic failures at every training iteration. We theoretically characterize the tradeoff between safety and policy improvement, show that the safety constraints are likely to be satisfied with high probability during training, derive provable convergence guarantees for our approach, which is no worse asymptotically than standard RL, and demonstrate the efficacy of the proposed approach on a suite of challenging navigation, manipulation, and locomotion tasks. Empirically, we show that the proposed approach can achieve competitive task performance while incurring significantly lower catastrophic failure rates during training than prior methods. Videos are at this url https://sites.google.com/view/conservative-safety-critics/home
研究动机与目标
- 通过在数据收集过程中尽量减少灾难性失败来激发RL中的安全探索。
- 开发一个保守的安全评估器,过估计失败概率以引导探索。
- 提供在每个训练迭代中界定失败概率的理论保证。
- 表明安全约束对收敛性和任务表现的影响有限。
- 在操作、导航和运动任务中展示经验有效性。
提出的方法
- 训练一个保守的安全评估器 Q_C(s,a),使用基于 CQL 的目标来上界失败概率。
- 对连续策略更新施加 KL 散度约束,以界定状态分布的变化。
- 将期望失败形成一个机会约束 V_C^pi(mu) ≤ chi,通过带拉格朗日乘子的一阶对偶梯度法求解。
- 在环境交互过程中使用类似拒绝采样的机制来选择满足 Q_C(s,a) ≤ ε 的动作,其中 ε 逐迭代自适应。
- 在策略更新中,用上界估计的 A_C 替代,并用基于费舍尔信息的 KL 近似求解有约束的优化。
- 提供理论结果,在更新后对 V_C^pi(mu) 进行界定,并在时变的 chi 下显示累计安全违规的次线性增长。
实验结果
研究问题
- RQ1保守的安全评估器是否能在在线 RL 训练期间对灾难性失败的概率给予界限?
- RQ2通过保守学习的评估器强制安全约束如何影响策略学习和收敛?
- RQ3在 CSC 下,安全与性能的理论保证是什么(界限/收敛性)?
- RQ4与先前的安全探索方法相比,CSC 训练的策略是否在减少不安全失败的同时实现有竞争力的任务性能?
主要发现
- 与先前的安全探索方法相比,CSC 在训练过程中将平均灾难性失败减少最多50%。
- 尽管有安全约束,CSC 仍保持有竞争力的任务奖励收敛。
- 理论结果在每次策略更新后给出对期望失败概率的高概率界限。
- 时变的安全阈值 chi 导致累计安全违规 Reg_C(T) 的次线性增长。
- 在五个模拟机器人领域(导航、操作、运动)上的经验评估显示出使用 CSC 的更安全探索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。