[论文解读] Deep Reinforcement Learning from Self-Play in Imperfect-Information Games
NFSP 将虚拟自对弈与深度强化学习相结合,在没有领域知识的情况下学习近似纳什均衡,在 Leduc 和 Limit Hold’em 扑克游戏中表现出色。
Many real-world applications can be described as large-scale games of imperfect information. To deal with these challenging domains, prior work has focused on computing Nash equilibria in a handcrafted abstraction of the domain. In this paper we introduce the first scalable end-to-end approach to learning approximate Nash equilibria without prior domain knowledge. Our method combines fictitious self-play with deep reinforcement learning. When applied to Leduc poker, Neural Fictitious Self-Play (NFSP) approached a Nash equilibrium, whereas common reinforcement learning methods diverged. In Limit Texas Holdem, a poker game of real-world scale, NFSP learnt a strategy that approached the performance of state-of-the-art, superhuman algorithms based on significant domain expertise.
研究动机与目标
- 在不依赖领域知识的前提下,促进不完备信息博弈中纳什均衡的可扩展学习。
- 通过将虚构自对弈与神经网络相结合,开发端到端的 NFSP 方法。
- 消除对手工抽象或先验领域知识的依赖。
- 展示在双人扑克(包括现实世界规模的 Hold’em)中向近似纳什策略收敛。
提出的方法
- 代理由两个神经网络组成:一个用于近似最佳反应的 Q-网络,以及一个模仿过去平均行为的监督-平均策略网络。
- 两个记忆:M_RL 用于强化学习数据,M_SL 用于监督学习数据,通过水库采样存储。
- 代理从近似最佳反应的混合策略(对 Q 进行 epsilon-greedy)与其平均策略 Pi 的混合中选择行动。
- 训练采用带目标网络的离策略 Q-learning,并使用监督学习来拟合平均策略。
- 采用前瞻性动态以稳定学习并跟踪对手行为,从而实现同时自我对弈。
- 该方法通过对原始信息状态或最小编码的信息状态进行操作,避免领域特定的特征工程。
实验结果
研究问题
- RQ1在不依赖领域知识的前提下,NFSP 是否能够在不完备信息的两人零和博弈中收敛到近似纳什均衡?
- RQ2在多智能体不完备信息环境中,NFSP 与标准深度强化学习(如 DQN)相比如何?
- RQ3在不使用手工抽象的情况下,NFSP 是否可扩展到如 Limit Texas Hold’em 这类现实世界规模的不完备信息博弈?
- RQ4如水库采样和前瞻性动态等组件在 NFSP 的稳定性与性能中起到怎样的作用?
主要发现
- NFSP 在 Leduc Hold’em 中接近纳什均衡,而标准强化学习方法则发散。
- 在 Limit Texas Hold’em 中,NFSP 学习出接近最先进、超越人类的、曾经使用手工抽象的算法的有竞争力的策略。
- 带平均策略的 DQN 在不完备信息的扑克中无法收敛到纳什均衡,且易被高度利用。
- 移除 NFSP 的关键组件(水库采样、前瞻性动态)会降低性能或导致不稳定。
- NFSP 的性能对不同网络架构具有鲁棒性,并在扑克环境中表现出稳定、单调的改进。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。