Skip to main content
QUICK REVIEW

[论文解读] Decoupling Dynamics and Reward for Transfer Learning

Amy Zhang, Harsh Satija|arXiv (Cornell University)|Apr 27, 2018
Reinforcement Learning in Robotics参考文献 32被引用 37
一句话总结

本文提出了一种解耦强化学习框架,将状态表征、前向动力学、逆向动力学与奖励学习分离为模块化组件。通过使用辅助任务(尤其是逆向动力学以提升稳定性)进行训练,该方法在具有不同动力学和奖励的各类任务间实现了快速且稳健的迁移,显著提升了连续与离散环境中的泛化能力和规划性能。

ABSTRACT

Current reinforcement learning (RL) methods can successfully learn single tasks but often generalize poorly to modest perturbations in task domain or training procedure. In this work, we present a decoupled learning strategy for RL that creates a shared representation space where knowledge can be robustly transferred. We separate learning the task representation, the forward dynamics, the inverse dynamics and the reward function of the domain, and show that this decoupling improves performance within the task, transfers well to changes in dynamics and reward, and can be effectively used for online planning. Empirical results show good performance in both continuous and discrete RL domains.

研究动机与目标

  • 解决标准强化学习方法在环境动力学与奖励函数扰动下泛化能力差的问题。
  • 通过将动力学、奖励与状态表征的学习解耦为模块化组件,提升强化学习中的迁移学习性能。
  • 实现预训练模块的高效重用,以快速适应具有不同动力学或奖励的新任务。
  • 通过辅助的逆向动力学建模稳定表征学习,提升训练收敛性与鲁棒性。
  • 通过将奖励函数与动力学模型解耦,支持在线策略与离线策略的策略优化。

提出的方法

  • 通过编码器 f_enc(s; θ_enc) 和解码器 f_dec(z; θ_dec) 引入表示空间 𝒁,实现从状态空间 𝒮 到表示空间 𝒁 的映射。
  • 训练前向动力学模型 f_for(z, a; θ_for) 以预测 𝒁 空间中的下一状态,并利用编码器与解码器提供监督信号。
  • 引入逆向动力学模型 f_inv(z, z'; θ_inv) 以从状态转移中预测动作,作为保持因果关系的正则化器。
  • 使用梯度截断操作(⊗)解耦动力学与奖励模块的训练,实现独立优化。
  • 将奖励函数解耦为独立模块,支持离线学习与新奖励函数的迁移。
  • 在策略优化之前,通过离线预训练阶段训练动力学与奖励模块,避免在线策略训练的不稳定性。

实验结果

研究问题

  • RQ1解耦动力学与奖励学习是否能提升在动力学与奖励各异的任务间的泛化能力?
  • RQ2引入逆向动力学模型对前向动力学模型的稳定性与性能有何影响?
  • RQ3对模块化组件(动力学、奖励、表征)进行预训练,在多大程度上能加速下游策略学习?
  • RQ4该解耦架构是否在连续控制与离散规划环境中均支持有效迁移?
  • RQ5与端到端强化学习相比,该解耦方法在鲁棒性与样本效率方面表现如何?

主要发现

  • 该解耦框架显著优于在线、在线策略训练,尤其在训练稳定性与收敛速度方面表现突出。
  • 引入逆向动力学模型可稳定前向动力学学习,降低训练波动性并提升表征质量。
  • 以离线方式预训练动力学与奖励模块,可显著加快并提升新任务中策略优化的可靠性。
  • 该方法能有效迁移至新奖励函数与受扰动的动力学,展现出对任务变化的强鲁棒泛化能力。
  • 该方法在连续控制(MuJoCo)与离散迷宫规划任务中均取得优异性能,证实其广泛适用性。
  • 标准 A3C 策略优化在多个任务上表现欠佳,凸显了解耦模块化训练方法的优势。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。