[论文解读] Sample-efficient Cross-Entropy Method for Real-time Planning
该论文提出了iCEM,一种改进的交叉熵方法,用于基于模型的强化学习中样本高效、实时的轨迹优化。通过引入具有幂律谱(1/f^β)的彩色噪声以实现时序相关的动作,结合精英保留的记忆机制,以及仅在最后迭代中注入自适应均值动作,iCEM在高维控制任务(如Humanoid Standup和Relocate)中将采样需求减少了2.7–22倍,性能提升1.2–10倍,优于标准CEM。
Trajectory optimizers for model-based reinforcement learning, such as the Cross-Entropy Method (CEM), can yield compelling results even in high-dimensional control tasks and sparse-reward environments. However, their sampling inefficiency prevents them from being used for real-time planning and control. We propose an improved version of the CEM algorithm for fast planning, with novel additions including temporally-correlated actions and memory, requiring 2.7-22x less samples and yielding a performance increase of 1.2-10x in high-dimensional control problems.
研究动机与目标
- 解决基于群体的轨迹优化器(如CEM)采样成本过高的问题,后者限制了其在实时机器人控制中的应用。
- 克服标准CEM在高维动作空间中效率低下的问题,因为采样需求阻碍了实时部署。
- 通过提升样本效率,使零阶优化器在无需梯度信息的情况下实现实际的实时规划。
- 设计一种统一、模块化的CEM扩展方法,在稀疏奖励的多样化机器人控制任务中提升收敛性和性能。
- 证明iCEM可与真实动力学模型和学习到的动力学模型配合使用,实现实时在线规划且性能无下降。
提出的方法
- 通过具有幂律谱(1/f^β)的彩色噪声引入时序相关的动作序列,提升动作轨迹探索效率。
- 通过在迭代间保留精英动作序列实现记忆机制,保留高性能动作序列以加速收敛。
- 仅在最后迭代中引入自适应均值动作注入,以防止过早收敛偏差,同时保持性能。
- 对均值动作采用基于动量的更新方式,使用衰减因子α=0.1和缩放系数β=1.25以稳定学习过程。
- 使用对角协方差矩阵并结合自适应方差衰减,避免完整协方差计算,降低计算成本。
- 将所有改进统一整合至iCEM框架中,使标准CEM可无缝替换为iCEM,直接集成至现有MBRL流水线。
实验结果
研究问题
- RQ1CEM能否被改进至足够样本高效,以支持高维控制任务中的实时机器人规划?
- RQ2时序相关的动作与记忆机制如何影响轨迹优化中的收敛速度与性能?
- RQ3在CEM过程的不同阶段注入均值动作,对最终性能与稳定性有何影响?
- RQ4iCEM在不进行微调的情况下,与PlaNet等模型学习到的动力学模型配合使用时,性能能保持多大程度?
- RQ5在Humanoid Standup和Relocate等多样化环境中,iCEM的哪些组件对性能提升贡献最大?
主要发现
- 在Relocate环境中,iCEM相比标准CEM将采样量减少了13.7倍,同时达到90%的成功率。
- 在Humanoid Standup任务中,iCEM在相同采样预算下相比最先进CEM性能提升400%。
- 消融实验表明,在Fetch Pick&Place任务中,彩色噪声和精英保留最有效;而在高维操作任务中,均值注入至关重要。
- iCEM在使用PlaNet学习到的动力学模型时仍保持强劲性能,实现无需额外微调的在线规划。
- 在所有评估环境中,iCEM将采样需求减少了2.7–22倍,展现出一致的效率提升。
- 性能提升在多个随机种子下均表现稳健,三次独立训练运行中成功率与回报均保持一致增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。