QUICK REVIEW

[论文解读] Regularized Off-Policy TD-Learning

Bo 博 Liu 刘, Sridhar Mahadevan|arXiv (Cornell University)|Jun 6, 2020

Stochastic Gradient Optimization Techniques参考文献 21被引用 19

一句话总结

本文提出 RO-TD，一种新型的 $l_1$-正则化离策略时序差分学习算法，可在计算成本较低的前提下实现稀疏值函数表示。通过将离策略 TD 问题建模为凸-凹鞍点随机优化问题，RO-TD 支持一阶求解器并实现有效的特征选择，同时保持离策略收敛性。

ABSTRACT

We present a novel $l_1$ regularized off-policy convergent TD-learning method (termed RO-TD), which is able to learn sparse representations of value functions with low computational complexity. The algorithmic framework underlying RO-TD integrates two key ideas: off-policy convergent gradient TD methods, such as TDC, and a convex-concave saddle-point formulation of non-smooth convex optimization, which enables first-order solvers and feature selection using online convex regularization. A detailed theoretical and experimental analysis of RO-TD is presented. A variety of experiments are presented to illustrate the off-policy convergence, sparse feature selection capability and low computational cost of the RO-TD algorithm.

研究动机与目标

解决在低计算成本下，离策略时序差分学习中稀疏值函数表示的学习挑战。
开发一种收敛的离策略强化学习算法，通过 $l_1$ 正则化实现特征选择，且不依赖二阶方法。
通过一阶优化技术，弥合离策略收敛性与值函数近似中稀疏性之间的差距。
通过结合 TDC 风格的离策略学习与在线凸正则化，实现高维特征空间中的可扩展强化学习。
提供一个统一的框架，用于正则化、收敛的离策略强化学习，结合凸优化与随机一阶方法。

提出的方法

利用 TDC 算法的线性方程形式，将离策略 TD 学习问题重新表述为凸-凹鞍点随机逼近问题。
应用邻近梯度法求解所得的非光滑凸优化问题，实现 $l_1$ 正则化与特征选择。
使用在线凸正则化，以稀疏特征表示增量更新值函数估计。
通过对偶形式将 TDC 算法的双时间尺度更新规则与 $l_1$ 正则化相结合，确保离策略收敛性。
利用鞍点形式，支持随特征数与样本数线性增长的一阶求解器。
调节正则化参数 $\rho_1$ 与 $\rho_2$ 以平衡稀疏性与收敛性，其中 $\rho_2$ 控制 TDC 修正项的影响。

实验结果

研究问题

RQ1能否在保持收敛性的前提下，有效将 $l_1$ 正则化集成到离策略 TD 学习中？
RQ2所提出的 RO-TD 算法是否在不牺牲样本效率或计算可扩展性的情况下实现稀疏特征选择？
RQ3优化问题的鞍点形式如何在离策略设置中实现一阶、低复杂度的学习？
RQ4在收敛性与稀疏性方面，RO-TD 相较于 TDC、LARS-TD 与 $l_2$ LSTD 等现有方法的实证性能如何？
RQ5在具有噪声或无关特征的高维、欠驱动控制任务中，RO-TD 是否能优于现有方法？

主要发现

在网格世界任务中，RO-TD 成功实现特征选择，在 20 次运行中达到 100% 成功率，而 TDC 与 TD 完全失败。
在三连杆倒立摆任务中，RO-GQ($\lambda$) 平均仅需 6.9 ± 4.82 个回合即可成功，优于 GQ($\lambda$)（11.3 ± 9.58 个回合），而 LARS-TD 因样本质量差而失败。
在网格世界任务中，RO-TD 的平均收敛步数为 147.40 ± 13.31，略高于 LARS-TD（142.25 ± 9.74），但保证了离策略收敛性与稀疏性。
该算法的计算复杂度为 $O(Nd)$，显著低于 LARS-TD 的 $O(Ndp^3)$，尤其当 $p$ 与 $d$ 呈次线性关系时优势更明显。
调节 $\rho_2$ 可在 TD 与 TDC 行为之间插值，其中较大的 $\rho_2$ 会减小 TDC 修正项，使更新更接近标准 TD。
在三连杆摆动实验中，RO-GQ($\lambda$) 在两种实验中均优于 GQ($\lambda$)，展现出在高维、非线性领域中的鲁棒性与可扩展性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。