QUICK REVIEW

[论文解读] Control Regularization for Reduced Variance Reinforcement Learning

Richard Cheng, Abhinav Verma|arXiv (Cornell University)|May 14, 2019

Reinforcement Learning in Robotics被引用 39

一句话总结

论文提出 CORE-RL，一种将深度强化学习策略与控制先验相混合的功能正则化方法，在连续控制任务的学习过程中降低方差并保持稳定性。

ABSTRACT

Dealing with high variance is a significant challenge in model-free reinforcement learning (RL). Existing methods are unreliable, exhibiting high variance in performance from run to run using different initializations/seeds. Focusing on problems arising in continuous control, we propose a functional regularization approach to augmenting model-free RL. In particular, we regularize the behavior of the deep policy to be similar to a policy prior, i.e., we regularize in function space. We show that functional regularization yields a bias-variance trade-off, and propose an adaptive tuning strategy to optimize this trade-off. When the policy prior has control-theoretic stability guarantees, we further show that this regularization approximately preserves those stability guarantees throughout learning. We validate our approach empirically on a range of settings, and demonstrate significantly reduced variance, guaranteed dynamic stability, and more efficient learning than deep RL alone.

研究动机与目标

动机：在用于连续控制的无模型强化学习中降低高方差的必要性。
提出一个在函数空间中将 RL 与控制先验融合的策略正则化框架。
展示正则化带来偏差-方差权衡，并在鲁棒先验下提供稳定性保证。
开发一个自适应策略，根据学习信号调整正则化权重。
在多个基准测试中，实证验证方差降低、稳定性和学习效率。

提出的方法

将 RL 策略与控制先验混合的策略定义为 u_k(s) = (1/(1+λ)) u_{θ_k}(s) + (λ/(1+λ)) u_prior(s)。
证明该混合策略等价于对 RL 策略应用权重为 λ 的功能正则化。
证明偏差-方差权衡：方差降低到原来 (1/(1+λ))^2 倍，而偏差取决于先验次优性 (D_sub)。
提供一个基于TD误差幅度的 λ 自适应方案，以反映学习信心（λ(s) = λ_max(1 - e^{-C|δ|})）。
通过 H-inf 先验和李雅普诺夫分析建立控制理论上的稳定性保证，以在学习过程中界定稳定区域 S_st。
描述 CORE-RL 算法步骤：计算控制先验，确定 λ 的自适应或固定值，部署混合策略，收集数据，更新 RL 策略。

实验结果

研究问题

RQ1控制为基础的功能正则化是否能在不显著牺牲性能的前提下降低策略梯度 RL 的方差？
RQ2在使用 CORE-RL 时，来自鲁棒控制先验的稳定性保证在学习过程中是否保持成立？
RQ3基于TD误差驱动的自适应 λ 是否能提升跨任务的学习效率和鲁棒性？
RQ4与基线 RL 和控制先验相比，CORE-RL 在真实数据和模拟基准上的表现如何？
RQ5正则化对可探索状态区域和最终策略偏差的影响？

主要发现

与基线深度强化学习相比，CORE-RL 在策略更新中的方差显著降低。
在使用鲁棒控制先验时，学习过程中的控制理论稳定性保证得以保持。
基于 TD 误差的自适应 λ 提高了跨任务的学习效率和最终性能。
在平衡木、带实验数据的跟车以及 TORCS 的经验结果显示，奖励比控制先验和 RL 基线更高。
中等正则化权重在方差更低的同时实现了最佳学习性能；λ 过高会过度限制探索。
理论分析将正则化强度与可探索状态区域及偏差-方差权衡联系起来。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。