QUICK REVIEW

[论文解读] Online Meta-Critic Learning for Off-Policy Actor-Critic Methods

Wei Zhou, Yiying Li|arXiv (Cornell University)|Mar 11, 2020

Adversarial Robustness in Machine Learning被引用 9

一句话总结

本文提出在线元评论家学习（Online Meta-Critic Learning），一种在训练过程中动态学习改进的智能体损失以加速并提升离策略演员-评论家强化学习的方法。通过元优化评论家网络以实时提升样本效率和学习速度，该方法在连续控制环境中显著提升了DDPG、TD3和SAC的性能，且无需依赖先验的任务族。

ABSTRACT

Off-Policy Actor-Critic (Off-PAC) methods have proven successful in a variety of continuous control tasks. Normally, the critic's action-value function is updated using temporal-difference, and the critic in turn provides a loss for the actor that trains it to take actions with higher expected return. In this paper, we introduce a novel and flexible meta-critic that observes the learning process and meta-learns an additional loss for the actor that accelerates and improves actor-critic learning. Compared to the vanilla critic, the meta-critic network is explicitly trained to accelerate the learning process; and compared to existing meta-learning algorithms, meta-critic is rapidly learned online for a single task, rather than slowly over a family of tasks. Crucially, our meta-critic framework is designed for off-policy based learners, which currently provide state-of-the-art reinforcement learning sample efficiency. We demonstrate that online meta-critic learning leads to improvements in avariety of continuous control environments when combined with contemporary Off-PAC methods DDPG, TD3 and the state-of-the-art SAC.

研究动机与目标

提升离策略演员-评论家方法在连续控制任务中的样本效率和学习速度。
解决固定评论家损失无法随训练过程中的学习动态自适应的局限性。
开发一种能够在线快速适应单个任务的元学习器，而非需要任务族进行元训练。
与最先进的离策略算法（如DDPG、TD3和SAC）无缝集成。

提出的方法

元评论家是一个神经网络，可观察当前学习状态，并元学习用于智能体的动态损失信号。
它在主强化学习训练过程中在线训练，利用智能体性能的梯度来更新其自身参数。
元评论家的损失被优化以最小化达到目标回报所需的时间，直接与学习速度目标对齐。
该方法在离策略框架内运行，通过利用离策略回放缓冲区保持样本效率。
元评论家与主演员-评论家端到端联合训练，实现实时学习进度自适应。
无需在多个任务上进行元训练，从而实现对单个任务的快速适应。

实验结果

研究问题

RQ1元学习的评论家损失是否能提升离策略演员-评论家方法的学习速度和最终性能？
RQ2与固定评论家损失相比，在收敛速度和样本效率方面，在线元评论家学习表现如何？
RQ3元评论家是否能仅在单个任务上快速训练，而无需事先知晓任务分布或在多个任务上进行元训练？
RQ4元评论家是否能提升DDPG、TD3和SAC等多样化离策略算法的性能？

主要发现

与标准的Off-PAC方法相比，在线元评论家学习在连续控制环境中显著加速了学习过程。
当与DDPG、TD3和SAC结合时，该方法在HalfCheetah、Ant和Humanoid等基准任务上显著提升了最终性能。
元评论家在不牺牲样本效率的前提下实现了更快的收敛速度，保持了基础算法的离策略优势。
该框架在多种离策略算法中均表现有效，展现出广泛的兼容性和泛化能力。
元评论家在线训练并能快速适应单个任务，避免了对任务族进行元训练的需求。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。