QUICK REVIEW

[论文解读] Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

Johannes Heinrich, David Silver|arXiv (Cornell University)|Mar 3, 2016

Artificial Intelligence in Games参考文献 34被引用 145

一句话总结

NFSP 将虚拟自对弈与深度强化学习相结合，在没有领域知识的情况下学习近似纳什均衡，在 Leduc 和 Limit Hold’em 扑克游戏中表现出色。

ABSTRACT

Many real-world applications can be described as large-scale games of imperfect information. To deal with these challenging domains, prior work has focused on computing Nash equilibria in a handcrafted abstraction of the domain. In this paper we introduce the first scalable end-to-end approach to learning approximate Nash equilibria without prior domain knowledge. Our method combines fictitious self-play with deep reinforcement learning. When applied to Leduc poker, Neural Fictitious Self-Play (NFSP) approached a Nash equilibrium, whereas common reinforcement learning methods diverged. In Limit Texas Holdem, a poker game of real-world scale, NFSP learnt a strategy that approached the performance of state-of-the-art, superhuman algorithms based on significant domain expertise.

研究动机与目标

在不依赖领域知识的前提下，促进不完备信息博弈中纳什均衡的可扩展学习。
通过将虚构自对弈与神经网络相结合，开发端到端的 NFSP 方法。
消除对手工抽象或先验领域知识的依赖。
展示在双人扑克（包括现实世界规模的 Hold’em）中向近似纳什策略收敛。

提出的方法

代理由两个神经网络组成：一个用于近似最佳反应的 Q-网络，以及一个模仿过去平均行为的监督-平均策略网络。
两个记忆：M_RL 用于强化学习数据，M_SL 用于监督学习数据，通过水库采样存储。
代理从近似最佳反应的混合策略（对 Q 进行 epsilon-greedy）与其平均策略 Pi 的混合中选择行动。
训练采用带目标网络的离策略 Q-learning，并使用监督学习来拟合平均策略。
采用前瞻性动态以稳定学习并跟踪对手行为，从而实现同时自我对弈。
该方法通过对原始信息状态或最小编码的信息状态进行操作，避免领域特定的特征工程。

实验结果

研究问题

RQ1在不依赖领域知识的前提下，NFSP 是否能够在不完备信息的两人零和博弈中收敛到近似纳什均衡？
RQ2在多智能体不完备信息环境中，NFSP 与标准深度强化学习（如 DQN）相比如何？
RQ3在不使用手工抽象的情况下，NFSP 是否可扩展到如 Limit Texas Hold’em 这类现实世界规模的不完备信息博弈？
RQ4如水库采样和前瞻性动态等组件在 NFSP 的稳定性与性能中起到怎样的作用？

主要发现

NFSP 在 Leduc Hold’em 中接近纳什均衡，而标准强化学习方法则发散。
在 Limit Texas Hold’em 中，NFSP 学习出接近最先进、超越人类的、曾经使用手工抽象的算法的有竞争力的策略。
带平均策略的 DQN 在不完备信息的扑克中无法收敛到纳什均衡，且易被高度利用。
移除 NFSP 的关键组件（水库采样、前瞻性动态）会降低性能或导致不稳定。
NFSP 的性能对不同网络架构具有鲁棒性，并在扑克环境中表现出稳定、单调的改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。