[论文解读] Regularizing Trajectory Optimization with Denoising Autoencoders
本文通过在用于学习环境模型的相同轨迹上训练去噪自编码器,提出了一种对基于模型的强化学习中的轨迹优化进行正则化的方法。该方法在基于梯度和无梯度的优化器上均提升了规划性能,实现了更快的初始学习速度,并在运动控制任务中增强了样本效率。
Trajectory optimization using a learned model of the environment is one of the core elements of model-based reinforcement learning. This procedure often suffers from exploiting inaccuracies of the learned model. We propose to regularize trajectory optimization by means of a denoising autoencoder that is trained on the same trajectories as the model of the environment. We show that the proposed regularization leads to improved planning with both gradient-based and gradient-free optimizers. We also demonstrate that using regularized trajectory optimization leads to rapid initial learning in a set of popular motor control tasks, which suggests that the proposed approach can be a useful tool for improving sample efficiency.
研究动机与目标
- 解决基于模型的强化学习中轨迹优化因环境模型学习不准确而带来的挑战。
- 通过利用去噪自编码器进行表征学习,提升规划的稳定性和性能。
- 在复杂运动控制环境的初始学习阶段,提升样本效率。
提出的方法
- 在从环境中收集的轨迹上训练去噪自编码器,以学习鲁棒的低维表征。
- 利用学习到的编码器通过惩罚偏离干净重建轨迹流形的轨迹,对轨迹优化过程进行正则化。
- 将自编码器的重建损失作为正则化项整合到基于梯度和无梯度规划器的优化目标中。
- 在专家轨迹或滚动轨迹的同一数据集上联合训练环境模型和去噪自编码器。
- 应用正则化优化以生成既可行又符合底层数据分布的控制序列。
- 在标准运动控制基准上评估该方法,以评估样本效率和规划质量。
实验结果
研究问题
- RQ1去噪自编码器能否提升基于模型的强化学习中轨迹优化的鲁棒性?
- RQ2通过表征学习进行正则化是否能加快初始训练阶段的收敛速度?
- RQ3该方法在不同优化范式(包括基于梯度和无梯度规划器)下的表现如何?
- RQ4该方法在连续控制任务中在多大程度上提升了样本效率?
主要发现
- 所提出的正则化方法在基于模型的强化学习中,对基于梯度和无梯度的优化器均提升了规划性能。
- 该方法在标准运动控制任务中实现了更快的初始学习,表明样本效率得到提升。
- 通过正则化优化生成的轨迹更符合底层数据流形,从而降低了模型不准确的影响。
- 去噪自编码器有效捕捉了轨迹分布的内在结构,从而在规划过程中实现了更好的泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。