[论文解读] Exploratory Gradient Boosting for Reinforcement Learning in Complex Domains
本文提出广义探索性Q学习(GEQL),将梯度提升函数逼近与不确定性下的信息获取(IAUU)探索策略相结合,以提升高维视觉环境中的强化学习性能。该方法在基于像素观测的复杂Minecraft任务中显著优于基线模型,展现出在标准方法失效时仍能有效学习的能力。
High-dimensional observations and complex real-world dynamics present major challenges in reinforcement learning for both function approximation and exploration. We address both of these challenges with two complementary techniques: First, we develop a gradient-boosting style, non-parametric function approximator for learning on $Q$-function residuals. And second, we propose an exploration strategy inspired by the principles of state abstraction and information acquisition under uncertainty. We demonstrate the empirical effectiveness of these techniques, first, as a preliminary check, on two standard tasks (Blackjack and $n$-Chain), and then on two much larger and more realistic tasks with high-dimensional observation spaces. Specifically, we introduce two benchmarks built within the game Minecraft where the observations are pixel arrays of the agent's visual field. A combination of our two algorithmic techniques performs competitively on the standard reinforcement-learning tasks while consistently and substantially outperforming baselines on the two tasks with high-dimensional observation spaces. The new function approximator, exploration strategy, and evaluation benchmarks are each of independent interest in the pursuit of reinforcement-learning methods that scale to real-world domains.
研究动机与目标
- 解决在具有视觉观测的高维、复杂强化学习领域中函数逼近与探索的挑战。
- 开发一种基于非参数梯度提升的Q函数残差逼近器,计算效率高,可在CPU上训练。
- 设计一种受状态抽象与不确定性下信息获取启发的探索策略,优于ε-greedy与均匀探索。
- 在标准表格任务与Minecraft中的大规模视觉任务上评估该方法,验证其可扩展性与鲁棒性。
- 在Minecraft中引入新的视觉强化学习基准,支持在复杂、高维任务上对智能体进行可复现的评估。
提出的方法
- 提出一种类似梯度提升的函数逼近器,通过迭代学习Q函数残差,类似于监督学习中的提升,但专为强化学习中的时序差分学习而适配。
- 采用残差学习框架,其中每个新的弱学习器修正累积Q估计的误差,从而在无需深度神经网络的情况下实现有效的非线性函数逼近。
- 引入一种基于不确定性下信息获取(IAUU)的探索策略,通过估计动作带来的预期信息增益,激励尝试新颖动作。
- 使用状态聚合函数将相似观测分组为抽象状态,利用这些抽象状态指导探索,同时不损害策略表达能力。
- 将梯度提升函数逼近器与IAUU探索策略整合为单一算法GEQL,通过学习与数据收集的交错进行,自适应地同时改进价值估计与探索。
- 使用AIX平台在Minecraft中的两个高维视觉任务上实现并评估该方法,以原始像素观测作为输入。
实验结果
研究问题
- RQ1基于梯度提升的函数逼近是否能在无需GPU加速的情况下,有效扩展到高维视觉观测的强化学习中?
- RQ2基于不确定性下信息获取(IAUU)的探索策略是否在复杂、部分可观察环境中优于标准的ε-greedy与均匀探索?
- RQ3梯度提升与IAUU探索的结合是否能在大规模视觉任务(如Minecraft中的任务)中实现更高的样本效率与性能?
- RQ4该方法在标准表格任务与具有高维观测的复杂视觉任务上,与标准基线相比表现如何?
- RQ5AIX平台在支持Minecraft中视觉强化学习基准的开发与评估方面,其能力在多大程度上得以体现?
主要发现
- 在Minecraft的视觉攀岩任务中,GEQL结合梯度提升器与IAUU探索策略实现了显著学习效果,最终四分之一时段内高度显著上升,表明有效获取了策略。
- 在视觉攀岩任务中,仅使用梯度提升器所学习的策略远优于线性、随机森林与批量提升基线,IAUU策略进一步提升了性能。
- 在视觉网格世界任务中,该方法与标准基线表现相当,证实其在更简单环境中的有效性。
- 在两个高维Minecraft任务中,梯度提升与IAUU探索的结合始终优于所有基线,展现出显著且可靠的性能提升。
- 智能体学习到的策略在视觉攀岩任务中获得了正向奖励,表明其成功识别并攀爬了复杂山地,即使存在部分可观测性与遮挡。
- 随时间变化的高度曲线显示,智能体在各轮次中性能显著提升,策略在达到更高高度方面变得越来越有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。