[论文解读] Suphx: Mastering Mahjong with Deep Reinforcement Learning
Suphx 使用深度强化学习,结合全局奖励预测、oracle 指导,以及运行时策略自适应,以掌握 4-player Mahjong,在 Tenhou 上达到超越人类的表现。
Artificial Intelligence (AI) has achieved great success in many domains, and game AI is widely regarded as its beachhead since the dawn of AI. In recent years, studies on game AI have gradually evolved from relatively simple environments (e.g., perfect-information games such as Go, chess, shogi or two-player imperfect-information games such as heads-up Texas hold'em) to more complex ones (e.g., multi-player imperfect-information games such as multi-player Texas hold'em and StartCraft II). Mahjong is a popular multi-player imperfect-information game worldwide but very challenging for AI research due to its complex playing/scoring rules and rich hidden information. We design an AI for Mahjong, named Suphx, based on deep reinforcement learning with some newly introduced techniques including global reward prediction, oracle guiding, and run-time policy adaptation. Suphx has demonstrated stronger performance than most top human players in terms of stable rank and is rated above 99.99% of all the officially ranked human players in the Tenhou platform. This is the first time that a computer program outperforms most top human players in Mahjong.
研究动机与目标
- 激发为麻将构建强大人工智能的动力,麻将是一个复杂的信息不完备的多人游戏。
- 开发基于深度卷积神经网络的策略,具备针对麻将动作的多种专业模型。
- 将基于人类的监督学习与自我博弈强化学习结合,以提升性能。
- 引入全球奖励预测,为与游戏结果一致的逐回合学习信号提供支持。
- 结合 oracle 指导和运行时策略自适应,以加速训练并提升在线对局表现。
提出的方法
- 通过监督学习从人类日志训练五个动作特定的CNN策略模型(弃牌、立直、吃、碰、杠)。
- 在分布式设置中使用带熵正则化和重要性采样的策略梯度强化学习。
- 实现基于GRU的全球奖励预测器,以从游戏级结果分配逐回合奖励。
- 引入拥有完整信息的预言机代理,并逐步放弃完全信息以引导训练(oracle guiding)。
- 在回合中将离线策略适应到当前初始手牌,应用参数化蒙特卡罗策略自适应(pMCPA)。
- 将游戏状态编码为多通道CNN输入,含34个牌张通道和前瞻特征,以近似获胜牌型和分数。
实验结果
研究问题
- RQ1带全球奖励的深度强化学习是否能在4人麻将中超越顶尖人类玩家?
- RQ2相比标准RL,oracle-guided训练是否能加速学习?
- RQ3在面对多样化初始手牌时,运行时策略自适应是否提升性能?
- RQ4在监督预训练和强化学习微调后,五个动作特定模型的表现如何?
- RQ5使用全球奖励预测器对将策略与最终游戏结果对齐的影响如何?
主要发现
- Suphx 在 Tenhou 获得 10 dan,并且稳定排名高于大多数顶尖人类玩家。
- RL_basic 相对监督学习有提升,RL-1 和 RL-2 相较 RL-basic 提供渐进性增益。
- 全球奖励预测帮助智能体优化最终游戏排名,而非逐回合分数。
- oracle 指导加速 RL 训练,产生比标准 RL 更好的策略。
- 运行时策略自适应(pMCPA)在逐回合自适应方面带来可观提升,在测试设置中赢率提升了66%。
- 离线评估显示监督模型的高准确率(弃牌 76.7%、立直 85.7%、吃 95.0%、碰 91.9%、杠 94.0%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。