QUICK REVIEW

[论文解读] Discounted Reinforcement Learning Is Not an Optimization Problem

Abhishek Naik, Roshan Shariff|arXiv (Cornell University)|Oct 4, 2019

Reinforcement Learning in Robotics参考文献 13被引用 27

一句话总结

本文认为，在持续性任务中，带折扣的强化学习并非一个定义良好的优化问题，原因在于缺乏全局目标函数，这使得函数逼近与折扣机制不兼容。本文提出应最大化平均奖励，这是一种定义良好的优化问题，即使在函数逼近下也存在明确的最优策略。

ABSTRACT

Discounted reinforcement learning is fundamentally incompatible with function approximation for control in continuing tasks. It is not an optimization problem in its usual formulation, so when using function approximation there is no optimal policy. We substantiate these claims, then go on to address some misconceptions about discounting and its connection to the average reward formulation. We encourage researchers to adopt rigorous optimization approaches, such as maximizing average reward, for reinforcement learning in continuing tasks.

研究动机与目标

挑战在持续性强化学习任务中对折扣的常规使用。
证明带折扣的强化学习缺乏定义良好的目标函数，导致在函数逼近下优化不可行。
表明平均奖励最大化在函数逼近下是一个定义良好的优化问题，并存在明确的最优策略。
澄清关于折扣与平均奖励形式之间关系的误解。
倡导在大规模、持续性强化学习应用中采用严谨的优化框架，如平均奖励方法。

提出的方法

分析带折扣价值函数的数学结构，表明其无法在策略之间定义全序关系。
证明在函数逼近下，由于不同状态中策略的不可比性，无法唯一确定一个最优可表示策略。
比较带折扣与平均奖励形式，表明当 γ→1 时，带折扣价值的极限等价于平均奖励。
综述现有的平均奖励强化学习算法，包括 RVI Q-learning 和具有闭式梯度的演员-评论家方法。
指出贪婪最大化带折扣回报并不能收敛到平均奖励最优策略。
认为将 γ 增大以趋近于 1 在实践中不可行，原因包括算法不稳定性以及对临界折扣率缺乏了解。

实验结果

研究问题

RQ1为何在持续性任务中，带折扣的强化学习并非一个定义良好的优化问题？
RQ2函数逼近与强化学习中折扣机制之间存在哪些根本性不兼容？
RQ3平均奖励形式如何解决带折扣强化学习中的问题？
RQ4能否证明以最大化带折扣回报为目标的算法无法收敛到平均奖励最优策略？
RQ5为何在实践中将折扣因子 γ 增大至 1 并不可行？

主要发现

在持续性任务中，带折扣的强化学习并非优化问题，因为不存在可用于比较所有策略的全局目标函数。
在函数逼近下，由于不同状态中策略的不可比性，无法定义一个最优可表示策略。
平均奖励形式是一个定义良好的优化问题，并保证存在一个最优可表示策略。
贪婪最大化带折扣回报并不能优化平均奖励，且所得策略依赖于 γ 的选择。
将 γ 增大至 1 在理论上等价于平均奖励最大化，但在实践中因不稳定性及对临界折扣率缺乏了解而不可行。
如 RVI Q-learning 和策略梯度方法等优化平均奖励的算法，在持续性任务中比带折扣方法更稳定、理论基础更坚实。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。