QUICK REVIEW

[论文解读] Sample-efficient Cross-Entropy Method for Real-time Planning

Cristina Pinneri, Shambhuraj Sawant|arXiv (Cornell University)|Aug 14, 2020

Advanced Control Systems Optimization参考文献 2被引用 25

一句话总结

该论文提出了iCEM，一种改进的交叉熵方法，用于基于模型的强化学习中样本高效、实时的轨迹优化。通过引入具有幂律谱（1/f^β）的彩色噪声以实现时序相关的动作，结合精英保留的记忆机制，以及仅在最后迭代中注入自适应均值动作，iCEM在高维控制任务（如Humanoid Standup和Relocate）中将采样需求减少了2.7–22倍，性能提升1.2–10倍，优于标准CEM。

ABSTRACT

Trajectory optimizers for model-based reinforcement learning, such as the Cross-Entropy Method (CEM), can yield compelling results even in high-dimensional control tasks and sparse-reward environments. However, their sampling inefficiency prevents them from being used for real-time planning and control. We propose an improved version of the CEM algorithm for fast planning, with novel additions including temporally-correlated actions and memory, requiring 2.7-22x less samples and yielding a performance increase of 1.2-10x in high-dimensional control problems.

研究动机与目标

解决基于群体的轨迹优化器（如CEM）采样成本过高的问题，后者限制了其在实时机器人控制中的应用。
克服标准CEM在高维动作空间中效率低下的问题，因为采样需求阻碍了实时部署。
通过提升样本效率，使零阶优化器在无需梯度信息的情况下实现实际的实时规划。
设计一种统一、模块化的CEM扩展方法，在稀疏奖励的多样化机器人控制任务中提升收敛性和性能。
证明iCEM可与真实动力学模型和学习到的动力学模型配合使用，实现实时在线规划且性能无下降。

提出的方法

通过具有幂律谱（1/f^β）的彩色噪声引入时序相关的动作序列，提升动作轨迹探索效率。
通过在迭代间保留精英动作序列实现记忆机制，保留高性能动作序列以加速收敛。
仅在最后迭代中引入自适应均值动作注入，以防止过早收敛偏差，同时保持性能。
对均值动作采用基于动量的更新方式，使用衰减因子α=0.1和缩放系数β=1.25以稳定学习过程。
使用对角协方差矩阵并结合自适应方差衰减，避免完整协方差计算，降低计算成本。
将所有改进统一整合至iCEM框架中，使标准CEM可无缝替换为iCEM，直接集成至现有MBRL流水线。

实验结果

研究问题

RQ1CEM能否被改进至足够样本高效，以支持高维控制任务中的实时机器人规划？
RQ2时序相关的动作与记忆机制如何影响轨迹优化中的收敛速度与性能？
RQ3在CEM过程的不同阶段注入均值动作，对最终性能与稳定性有何影响？
RQ4iCEM在不进行微调的情况下，与PlaNet等模型学习到的动力学模型配合使用时，性能能保持多大程度？
RQ5在Humanoid Standup和Relocate等多样化环境中，iCEM的哪些组件对性能提升贡献最大？

主要发现

在Relocate环境中，iCEM相比标准CEM将采样量减少了13.7倍，同时达到90%的成功率。
在Humanoid Standup任务中，iCEM在相同采样预算下相比最先进CEM性能提升400%。
消融实验表明，在Fetch Pick&Place任务中，彩色噪声和精英保留最有效；而在高维操作任务中，均值注入至关重要。
iCEM在使用PlaNet学习到的动力学模型时仍保持强劲性能，实现无需额外微调的在线规划。
在所有评估环境中，iCEM将采样需求减少了2.7–22倍，展现出一致的效率提升。
性能提升在多个随机种子下均表现稳健，三次独立训练运行中成功率与回报均保持一致增益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。