[论文解读] Blending MPC & Value Function Approximation for Efficient Reinforcement Learning
该论文提出MPQ(λ),一种通过衰减参数λ系统性地权衡不准确MPC模型误差与价值函数近似误差,将模型预测控制(MPC)与无模型强化学习相结合的框架。该方法在严重模型偏差条件下,于样本高效、高维的操纵任务中实现了与使用真实动力学模型的MPC及无模型RL相当的性能。
Model-Predictive Control (MPC) is a powerful tool for controlling complex, real-world systems that uses a model to make predictions about future behavior. For each state encountered, MPC solves an online optimization problem to choose a control action that will minimize future cost. This is a surprisingly effective strategy, but real-time performance requirements warrant the use of simple models. If the model is not sufficiently accurate, then the resulting controller can be biased, limiting performance. We present a framework for improving on MPC with model-free reinforcement learning (RL). The key insight is to view MPC as constructing a series of local Q-function approximations. We show that by using a parameter $\lambda$, similar to the trace decay parameter in TD($\lambda$), we can systematically trade-off learned value estimates against the local Q-function approximations. We present a theoretical analysis that shows how error from inaccurate models in MPC and value function estimation in RL can be balanced. We further propose an algorithm that changes $\lambda$ over time to reduce the dependence on MPC as our estimates of the value function improve, and test the efficacy our approach on challenging high-dimensional manipulation tasks with biased models in simulation. We demonstrate that our approach can obtain performance comparable with MPC with access to true dynamics even under severe model bias and is more sample efficient as compared to model-free RL.
研究动机与目标
- 解决实际机器人控制任务中因模型偏差导致的MPC性能下降问题。
- 通过在训练期间利用近似模型,提升无模型强化学习的样本效率。
- 开发一种统一框架,动态平衡基于MPC的规划与学习到的价值函数。
- 在不同程度的模型误设和规划时域不确定性下实现鲁棒性能。
- 减少对精确动力学模型的依赖,同时保持与无模型RL及使用真实动力学的MPC相当的高 asymptotic 性能。
提出的方法
- 将MPC视为在有限时域内生成一系列局部Q-函数近似。
- 引入一个类似于TD(λ)中迹衰减的混合参数λ,用于在MPC的局部Q-估计与学习到的价值函数之间插值。
- 使用随时间变化的λ,使其在训练过程中逐渐衰减,从而在价值函数估计改善时逐步降低对MPC模型的依赖。
- 制定一个结合MPC代价到目标与价值函数估计的有限时域规划目标,以最小化总期望代价。
- 在基于采样的MPC(如MPPI)中应用该框架,并采用动态λ调度,以平衡模型偏差与估计方差。
- 使用离策略深度强化学习算法(如PPO)训练价值函数,以优化长时域决策,同时利用MPC进行短时域规划。
实验结果
研究问题
- RQ1结合MPC与无模型强化学习的混合方法是否能减轻控制任务中模型偏差的影响?
- RQ2如何系统性地平衡MPC模型误差与价值函数近似误差之间的权衡?
- RQ3与固定λ或时域调优相比,随时间动态衰减λ是否能提升样本效率与渐近性能?
- RQ4在大规模模型误设(如质量或摩擦参数偏差)下,MPQ(λ)能在多大程度上保持性能?
- RQ5在基于采样的MPC中,MPQ(λ)对规划时域与轨迹采样数量的变化有多大的鲁棒性?
主要发现
- 即使在严重模型偏差(如质量偏差因子b=2.0)下,MPQ(λ)在极限情况下仍能达到与使用真实动力学的MPC及无模型RL相当的性能。
- 在INHANDMANIPULATION任务中,MPQ(λ)显著优于PPO,后者在150k训练步内未见性能提升。
- 在SAWYEROPEGINSERTION任务中,MPQ(λ)能适应传感器噪声,并实现精确插入,而使用偏差模型的MPPI因在目标附近控制不佳而失败。
- 在质量、惯性与摩擦系数等不同水平的模型偏差下,MPQ(λ)保持了高成功率(比偏差MPPI高出30%以上)。
- 该方法对规划时域与粒子数量具有鲁棒性:与固定时域MPC相比,使用λ可降低对这些超参数的敏感性。
- 随时间衰减λ相比调优时域,能实现更优的收敛性与渐近性能,且在不同衰减率下结果更稳定。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。