Skip to main content
QUICK REVIEW

[论文解读] A Finite-Time Analysis of Q-Learning with Neural Network Function Approximation

Pan Xu, Quanquan Gu|arXiv (Cornell University)|Dec 10, 2019
Reinforcement Learning in Robotics被引用 18
一句话总结

本文首次对在马尔可夫决策过程(MDP)生成的非独立同分布(non-i.i.d.)数据下,使用深度ReLU神经网络函数逼近的Q-learning进行了有限时间分析。当网络充分过参数化时,其收敛速率达到了$O(1/ackslashsqrt{T})$,与线性函数逼近的已知速率一致,并将理论保证扩展至真实强化学习场景中的深度神经网络。

ABSTRACT

Q-learning with neural network function approximation (neural Q-learning for short) is among the most prevalent deep reinforcement learning algorithms. Despite its empirical success, the non-asymptotic convergence rate of neural Q-learning remains virtually unknown. In this paper, we present a finite-time analysis of a neural Q-learning algorithm, where the data are generated from a Markov decision process and the action-value function is approximated by a deep ReLU neural network. We prove that neural Q-learning finds the optimal policy with $O(1/\\sqrt{T})$ convergence rate if the neural function approximator is sufficiently overparameterized, where $T$ is the number of iterations. To our best knowledge, our result is the first finite-time analysis of neural Q-learning under non-i.i.d. data assumption.

研究动机与目标

  • 弥合深度Q-learning在非独立同分布环境中的实证成功与理论理解之间的差距。
  • 在现实的马尔可夫决策过程(MDP)数据生成设定下,为使用深度神经网络函数逼近的Q-learning提供有限时间收敛性分析。
  • 建立一种神经Q-learning的收敛速率,使其与线性函数逼近的已知速率相匹配,尽管存在非线性、深层网络带来的额外复杂性。
  • 放宽先前深度Q-learning理论工作中普遍存在的不切实际的i.i.d.数据假设。

提出的方法

  • 在Q-learning框架中使用深度ReLU神经网络来逼近动作价值函数,并采用时序差分(TD)更新。
  • 利用TD误差通过梯度下降更新网络权重,网络在从MDP采样得到的轨迹上进行训练。
  • 通过在初始化点附近对神经网络进行局部线性化,分析权重更新的动力学行为。
  • 提出一种基于神经正切核(NTK)范式的新型分析框架,以处理过参数化的网络。
  • 使用马氏距离和经验协方差矩阵刻画参数空间的几何结构及收敛行为。
  • 基于NTK的性质和过参数化假设,建立期望TD更新的类似压缩不等式。

实验结果

研究问题

  • RQ1我们能否在非独立同分布数据下,为使用深度神经网络函数逼近的Q-learning建立有限时间收敛速率?
  • RQ2尽管存在非线性、深层结构,神经Q-learning的收敛速率是否与线性函数逼近的已知速率一致?
  • RQ3过参数化在非独立同分布设定下对确保深度Q-learning收敛起到了何种作用?
  • RQ4该分析如何处理深度神经网络在Q-learning中固有的非凸性和非线性动力学?

主要发现

  • 当网络充分过参数化时,神经Q-learning对最优Q值函数的收敛速率为$O(1/\sqrt{T})$。
  • 尽管存在非独立同分布数据和非线性函数逼近,该收敛速率仍与常步长下线性函数逼近的TD学习最优已知速率一致。
  • 该分析结果基于现实的MDP数据生成过程,不同于先前假设i.i.d.数据的工作。
  • 结果在神经正切核(NTK)范式下成立,即网络宽度足够大,可在训练过程中保持近似线性动力学。
  • 收敛目标为最优Q值函数,其误差由神经网络函数类的近似误差决定。
  • 该分析为DQN等深度Q-learning算法在复杂环境中的实证成功提供了理论依据。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。