[论文解读] Deep Learning for Reward Design to Improve Monte Carlo Tree Search in ATARI Games
该论文提出PGRD-DL,一种深度强化学习方法,利用卷积神经网络从原始像素输入自动学习非线性奖励奖励函数,在稀疏奖励的ATARI游戏中显著提升了基于UCT的蒙特卡洛树搜索性能。通过学习能够预判延迟后果的游戏特定状态表征,PGRD-DL在无需手工设计特征或奖励塑形的情况下,增强了探索与规划效率。
Monte Carlo Tree Search (MCTS) methods have proven powerful in planning for sequential decision-making problems such as Go and video games, but their performance can be poor when the planning depth and sampling trajectories are limited or when the rewards are sparse. We present an adaptation of PGRD (policy-gradient for reward-design) for learning a reward-bonus function to improve UCT (a MCTS algorithm). Unlike previous applications of PGRD in which the space of reward-bonus functions was limited to linear functions of hand-coded state-action-features, we use PGRD with a multi-layer convolutional neural network to automatically learn features from raw perception as well as to adapt the non-linear reward-bonus function parameters. We also adopt a variance-reducing gradient method to improve PGRD's performance. The new method improves UCT's performance on multiple ATARI games compared to UCT without the reward bonus. Combining PGRD and Deep Learning in this way should make adapting rewards for MCTS algorithms far more widely and practically applicable than before.
研究动机与目标
- 解决传统蒙特卡洛树搜索(MCTS)在ATARI游戏中因稀疏且延迟的奖励导致在计算资源受限下难以有效规划的局限性。
- 通过实现从原始像素观测端到端的特征学习,克服先前基于策略梯度的奖励设计(PGRD)方法对人工设计的状态-动作特征的依赖。
- 通过在深度学习框架中引入方差减少的梯度估计器,提升PGRD的稳定性和性能。
- 证明所学习的奖励奖励能够有效缓解延迟奖励的影响,并提升复杂高维环境中的UCT规划性能。
提出的方法
- 将PGRD(用于奖励设计的策略梯度)改进为使用多层卷积神经网络(CNN)直接从原始像素观测学习非线性奖励奖励函数。
- 采用方差减少的梯度估计器,以稳定训练过程并提升策略梯度优化中奖励奖励函数的样本效率。
- 通过修改动作选择得分,将学习到的奖励奖励整合到UCT算法中,使得分同时包含环境奖励和学习到的奖励。
- 利用在UCT规划过程中收集的在线策略经验来训练基于CNN的奖励奖励函数,使奖励能够适应代理当前的规划行为。
- 采用可微分的端到端训练流程,使奖励奖励函数的优化目标为提升UCT规划器在目标ATARI游戏上的性能。
- 将该方法应用于多个ATARI游戏(包括Ms. Pacman和Q*Bert),以评估其学习游戏特定状态区分能力,以预判延迟的负面结果。
实验结果
研究问题
- RQ1深度神经网络能否有效从原始像素输入学习非线性、游戏特定的奖励奖励,以提升ATARI游戏中MCTS的规划性能?
- RQ2在高维视觉输入下应用PGRD时,使用方差减少的梯度估计器是否能稳定并提升奖励奖励函数的训练?
- RQ3所学习的奖励奖励在多大程度上能缓解MCTS规划中稀疏且延迟奖励的影响?
- RQ4所提出的方法能否在无需手工设计特征或奖励工程的情况下,泛化到不同ATARI游戏?
主要发现
- 与不使用奖励奖励的标准UCT相比,PGRD-DL在多个ATARI游戏中显著提升了UCT性能,证明了所学习奖励塑形的有效性。
- 该方法成功学习了游戏特定的状态区分能力,例如在Ms. Pacman和Q*Bert中识别出未来将面临惩罚(如敌人遭遇或坠落)的危险状态。
- 可视化结果表明,奖励奖励在不同状态下动态变化,不同动作在不同情境下获得最高奖励,表明其具备非平凡的、上下文敏感的学习能力。
- 在Ms. Pacman中,所学习的奖励对通向敌人的动作赋予负值,对避让敌人的动作赋予正值,即使客观奖励保持为零。
- 在Q*Bert中,奖励函数在坠落发生前即为可能使代理从金字塔上掉落的动作赋予负值,从而引导UCT选择更安全的路径。
- 所学习的奖励奖励能有效预判延迟后果,从而减少对深度规划或大量轨迹的依赖以实现良好性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。