Skip to main content
QUICK REVIEW

[论文解读] Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

Johannes Heinrich, David Silver|arXiv (Cornell University)|Mar 3, 2016
Artificial Intelligence in Games参考文献 34被引用 145
一句话总结

NFSP 将虚拟自对弈与深度强化学习相结合,在没有领域知识的情况下学习近似纳什均衡,在 Leduc 和 Limit Hold’em 扑克游戏中表现出色。

ABSTRACT

Many real-world applications can be described as large-scale games of imperfect information. To deal with these challenging domains, prior work has focused on computing Nash equilibria in a handcrafted abstraction of the domain. In this paper we introduce the first scalable end-to-end approach to learning approximate Nash equilibria without prior domain knowledge. Our method combines fictitious self-play with deep reinforcement learning. When applied to Leduc poker, Neural Fictitious Self-Play (NFSP) approached a Nash equilibrium, whereas common reinforcement learning methods diverged. In Limit Texas Holdem, a poker game of real-world scale, NFSP learnt a strategy that approached the performance of state-of-the-art, superhuman algorithms based on significant domain expertise.

研究动机与目标

  • 在不依赖领域知识的前提下,促进不完备信息博弈中纳什均衡的可扩展学习。
  • 通过将虚构自对弈与神经网络相结合,开发端到端的 NFSP 方法。
  • 消除对手工抽象或先验领域知识的依赖。
  • 展示在双人扑克(包括现实世界规模的 Hold’em)中向近似纳什策略收敛。

提出的方法

  • 代理由两个神经网络组成:一个用于近似最佳反应的 Q-网络,以及一个模仿过去平均行为的监督-平均策略网络。
  • 两个记忆:M_RL 用于强化学习数据,M_SL 用于监督学习数据,通过水库采样存储。
  • 代理从近似最佳反应的混合策略(对 Q 进行 epsilon-greedy)与其平均策略 Pi 的混合中选择行动。
  • 训练采用带目标网络的离策略 Q-learning,并使用监督学习来拟合平均策略。
  • 采用前瞻性动态以稳定学习并跟踪对手行为,从而实现同时自我对弈。
  • 该方法通过对原始信息状态或最小编码的信息状态进行操作,避免领域特定的特征工程。

实验结果

研究问题

  • RQ1在不依赖领域知识的前提下,NFSP 是否能够在不完备信息的两人零和博弈中收敛到近似纳什均衡?
  • RQ2在多智能体不完备信息环境中,NFSP 与标准深度强化学习(如 DQN)相比如何?
  • RQ3在不使用手工抽象的情况下,NFSP 是否可扩展到如 Limit Texas Hold’em 这类现实世界规模的不完备信息博弈?
  • RQ4如水库采样和前瞻性动态等组件在 NFSP 的稳定性与性能中起到怎样的作用?

主要发现

  • NFSP 在 Leduc Hold’em 中接近纳什均衡,而标准强化学习方法则发散。
  • 在 Limit Texas Hold’em 中,NFSP 学习出接近最先进、超越人类的、曾经使用手工抽象的算法的有竞争力的策略。
  • 带平均策略的 DQN 在不完备信息的扑克中无法收敛到纳什均衡,且易被高度利用。
  • 移除 NFSP 的关键组件(水库采样、前瞻性动态)会降低性能或导致不稳定。
  • NFSP 的性能对不同网络架构具有鲁棒性,并在扑克环境中表现出稳定、单调的改进。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。