QUICK REVIEW

[论文解读] Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting

Jorge A. Mendez, Boyu Wang|arXiv (Cornell University)|Jan 1, 2020

Domain Adaptation and Few-Shot Learning被引用 3

一句话总结

本文提出了一种终身策略梯度方法，通过直接的策略梯度优化训练因子化策略，实现在不同任务间的持续知识迁移。通过利用共享表征和持续学习，该方法加速了训练过程，并在多种控制环境中消除了灾难性遗忘。

ABSTRACT

Policy gradient methods have shown success in learning control policies for high-dimensional dynamical systems. Their biggest downside is the amount of exploration they require before yielding high-performing policies. In a lifelong learning setting, in which an agent is faced with multiple consecutive tasks over its lifetime, reusing information from previously seen tasks can substantially accelerate the learning of new tasks. We provide a novel method for lifelong policy gradient learning that trains lifelong function approximators directly via policy gradients, allowing the agent to benefit from accumulated knowledge throughout the entire training process. We show empirically that our algorithm learns faster and converges to better policies than single-task and lifelong learning baselines, and completely avoids catastrophic forgetting on a variety of challenging domains.

研究动机与目标

为解决在序列任务中策略梯度强化学习的收敛缓慢和灾难性遗忘问题。
通过在多个任务上直接使用策略梯度训练函数逼近器，实现终身知识迁移。
设计一种方法，在学习新任务的同时保持对先前任务的高性能，避免性能崩溃。
通过实验验证，与单任务和终身学习基线相比，该方法具有更快的收敛速度和更优的最终性能。

提出的方法

该方法使用包含先前学习任务知识的策略梯度更新来训练因子化策略。
它采用一种终身学习框架，通过共享组件和任务特定组件，逐步在任务间更新策略网络。
该方法使用函数逼近来表示策略，并通过每个新任务的策略梯度信号持续更新它们。
一个关键创新是通过策略梯度直接训练终身函数逼近器，实现端到端的持续适应学习。
该方法通过参数正则化和经验回放机制保留先前任务的知识，从而避免灾难性遗忘。

实验结果

研究问题

RQ1通过因子化策略的终身策略梯度学习，是否能加速新任务的训练，同时保持对先前任务的性能？
RQ2与单任务和现有终身学习基线相比，该方法在收敛速度和最终策略质量方面表现如何？
RQ3该方法在高维控制任务中在多大程度上防止了灾难性遗忘？
RQ4因子化策略参数化对终身学习效率和泛化能力有何影响？

主要发现

所提出的方法在新任务上的收敛速度明显快于单任务和终身学习基线方法。
在多个具有挑战性的控制环境中，其最终策略性能始终优于基线方法。
该方法完全消除了灾难性遗忘，保持了对先前学习任务的高性能。
实验结果表明，通过直接策略梯度更新实现的持续知识迁移，可带来更高效的终身学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。