[论文解读] Uncertainty-Aware Reinforcement Learning for Collision Avoidance
论文提出了一种具不确定性感知的基于模型的强化学习方法,该方法使用神经网络预测碰撞概率,并通过 bootstrapping 和 dropout 来估计不确定性,从而引导一个随速度变化的碰撞成本,以实现安全探索和高效学习以避免碰撞。
Reinforcement learning can enable complex, adaptive behavior to be learned automatically for autonomous robotic platforms. However, practical deployment of reinforcement learning methods must contend with the fact that the training process itself can be unsafe for the robot. In this paper, we consider the specific case of a mobile robot learning to navigate an a priori unknown environment while avoiding collisions. In order to learn collision avoidance, the robot must experience collisions at training time. However, high-speed collisions, even at training time, could damage the robot. A successful learning method must therefore proceed cautiously, experiencing only low-speed collisions until it gains confidence. To this end, we present an uncertainty-aware model-based learning algorithm that estimates the probability of collision together with a statistical estimate of uncertainty. By formulating an uncertainty-dependent cost function, we show that the algorithm naturally chooses to proceed cautiously in unfamiliar environments, and increases the velocity of the robot in settings where it has high confidence. Our predictive model is based on bootstrapped neural networks using dropout, allowing it to process raw sensory inputs from high-bandwidth sensors such as cameras. Our experimental evaluation demonstrates that our method effectively minimizes dangerous collisions at training time in an obstacle avoidance task for a simulated and real-world quadrotor, and a real-world RC car. Videos of the experiments can be found at https://sites.google.com/site/probcoll.
研究动机与目标
- 在训练过程中可能发生碰撞的未知环境中,激励安全学习。
- 开发在原始传感输入上运行的具不确定性感知的碰撞预测模型。
- 引入一个随速度变化的碰撞成本,利用不确定性来平衡安全性和任务进展。
- 在仿真和现实世界的机器人(四旋翼和遥控车)上演示该方法,并与非不确定性基线进行比较。
提出的方法
- 在不确定性下使用带滚动时域MPC的基于模型的强化学习框架进行导航。
- 用一个神经网络预测碰撞概率,该网络输出在规划时域内P(coll | x, u, o)的伯努利参数。
- 定义一个风险厌恶的碰撞概率 P~(coll|x,u,o),在前激活输出上添加一个缩放后的标准差项。
- 引入一个随速度相关的碰撞成本 C_coll = lambda_coll * ||vel||^2,以惩罚高速度下的近碰撞。
- 通过自举和 dropout 训练不确定性估计,以获得风险厌恶概率的 E[f_theta] 和 Var[f_theta]。
- 用MPC迭代地收集轨迹,用新数据更新碰撞预测模型,然后重复。
实验结果
研究问题
- RQ1在碰撞预测中加入不确定性是否在训练期间提高安全性,同时不过度地损害任务性能?
- RQ2自举法和 dropout 能否为机器人领域的高维传感输入提供有意义的不确定性估计?
- RQ3随速度变化、具不确定性感知的碰撞成本如何影响在未知环境中的探索与学习效率?
主要发现
- 与非不确定性基线相比,具不确定性感知的规划在训练期间减少了危险碰撞。
- 该方法通过对不确定性项(lambda_std)的调节,在安全性和最终任务性能之间进行权衡。
- 与恒定惩罚基线相比,具不确定性感知的方法在安全性与进展之间取得了更好的平衡,而不是变得一律保守。
- 对四旋翼和遥控车的现实世界实验表明该方法可应用于真实传感器和任务。
- 该方法通过在模型自信的区域进行高速度的尝试,而在低速且不确定的区域偏好探索,从而实现安全探索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。