Skip to main content
QUICK REVIEW

[论文解读] Bridging Exploration and General Function Approximation in Reinforcement Learning: Provably Efficient Kernel and Neural Value Iterations.

Zhuoran Yang, Chi Jin|arXiv (Cornell University)|Nov 9, 2020
Advanced Bandit Algorithms Research参考文献 33被引用 18
一句话总结

本文提出了首个使用核函数和神经网络函数逼近的可证明高效的强化学习算法,结合乐观最小二乘值迭代与探索机制,实现了 $\tilde{\mathcal{O}}(\delta_{\mathcal{F}} H^2 \sqrt{T})$ 的遗憾。该方法在无需额外数据假设的前提下,确保了多项式时间复杂度与样本复杂度,从而实现了对大规模或无限状态空间的可扩展性。

ABSTRACT

Reinforcement learning (RL) algorithms combined with modern function approximators such as kernel functions and deep neural networks have achieved significant empirical successes in large-scale application problems with a massive number of states. From a theoretical perspective, however, RL with functional approximation poses a fundamental challenge to developing algorithms with provable computational and statistical efficiency, due to the need to take into consideration both the exploration-exploitation tradeoff that is inherent in RL and the bias-variance tradeoff that is innate in statistical estimation. To address such a challenge, focusing on the episodic setting where the action-value functions are represented by a kernel function or over-parametrized neural network, we propose the first provable RL algorithm with both polynomial runtime and sample complexity, without additional assumptions on the data-generating model. In particular, for both the kernel and neural settings, we prove that an optimistic modification of the least-squares value iteration algorithm incurs an $ ilde{\mathcal{O}}(\delta_{\mathcal{F}} H^2 \sqrt{T})$ regret, where $\delta_{\mathcal{F}}$ characterizes the intrinsic complexity of the function class $\mathcal{F}$, $H$ is the length of each episode, and $T$ is the total number of episodes. Our regret bounds are independent of the number of states and therefore even allows it to diverge, which exhibits the benefit of function approximation.

研究动机与目标

  • 解决基于函数逼近的强化学习中探索-利用权衡与偏差-方差权衡之间的理论挑战。
  • 为使用核函数和神经网络逼近器的大规模或无限状态空间设计一个可证明高效的强化学习算法。
  • 在不增加对数据生成模型的假设条件下,实现多项式时间复杂度与样本复杂度。
  • 建立与状态数量无关的遗憾边界,从而实现对高维或连续环境的可扩展性。

提出的方法

  • 提出最小二乘值迭代算法的乐观修改版本,以平衡探索与利用。
  • 使用核函数和过参数化的神经网络来表示函数类 $\mathcal{F}$ 中的动作值函数。
  • 将不确定性估计融入值函数更新中,以鼓励对较少已知的状态-动作对进行探索。
  • 利用函数类 $\mathcal{F}$ 的固有复杂度 $\delta_{\mathcal{F}}$,将遗憾边界以 $\delta_{\mathcal{F}}$、$H$ 和 $T$ 的形式进行界定。
  • 应用统计学习理论来控制估计误差,并在函数逼近下确保泛化能力。
  • 推导出与 $\tilde{\mathcal{O}}(\delta_{\mathcal{F}} H^2 \sqrt{T})$ 成比例的遗憾边界,且该边界与状态数量无关。

实验结果

研究问题

  • RQ1我们能否设计一种使用核函数和神经网络函数逼近的可证明高效强化学习算法,以平衡探索与泛化?
  • RQ2在函数逼近的回合制强化学习中,可实现的最优遗憾边界是什么?且该边界与状态空间大小无关?
  • RQ3如何在值迭代中引入乐观性,以同时保证计算效率与统计一致性?
  • RQ4函数类 $\mathcal{F}$ 的固有复杂度 $\delta_{\mathcal{F}}$ 在函数逼近强化学习的遗憾确定中起到何种作用?
  • RQ5是否可能在不施加对数据生成过程的限制性假设下,实现多项式时间复杂度与样本复杂度?

主要发现

  • 所提出的算法实现了 $\tilde{\mathcal{O}}(\delta_{\mathcal{F}} H^2 \sqrt{T})$ 的遗憾边界,且该边界与状态数量无关。
  • 遗憾边界与函数类 $\mathcal{F}$ 的固有复杂度 $\delta_{\mathcal{F}}$ 成比例,捕捉了近似误差与估计误差之间的权衡。
  • 即使状态数量为无穷大或非常大,该算法仍能保持多项式时间复杂度与样本复杂度。
  • 乐观最小二乘值迭代框架在函数逼近强化学习中成功平衡了探索与利用。
  • 理论分析无需对数据生成模型施加额外假设,从而增强了方法的通用性。
  • 结果表明,函数逼近可在强化学习中被有效使用,并实现可证明的效率,尤其适用于高维或连续环境。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。