QUICK REVIEW

[論文レビュー] Suphx: Mastering Mahjong with Deep Reinforcement Learning

Junjie Li, Sotetsu Koyamada|arXiv (Cornell University)|Mar 30, 2020

Artificial Intelligence in Games参考文献 13被引用数 85

ひとこと要約

Suphxはグローバル報酬予測、オラクル導き、実行時方針適応を用いた深層強化学習により4人麻将を習熟し、Tenhouで超人レベルの性能を達成します。

ABSTRACT

Artificial Intelligence (AI) has achieved great success in many domains, and game AI is widely regarded as its beachhead since the dawn of AI. In recent years, studies on game AI have gradually evolved from relatively simple environments (e.g., perfect-information games such as Go, chess, shogi or two-player imperfect-information games such as heads-up Texas hold'em) to more complex ones (e.g., multi-player imperfect-information games such as multi-player Texas hold'em and StartCraft II). Mahjong is a popular multi-player imperfect-information game worldwide but very challenging for AI research due to its complex playing/scoring rules and rich hidden information. We design an AI for Mahjong, named Suphx, based on deep reinforcement learning with some newly introduced techniques including global reward prediction, oracle guiding, and run-time policy adaptation. Suphx has demonstrated stronger performance than most top human players in terms of stable rank and is rated above 99.99% of all the officially ranked human players in the Tenhou platform. This is the first time that a computer program outperforms most top human players in Mahjong.

研究の動機と目的

複雑な不完全情報付き多人数対戦ゲームである麻雀の強力なAI構築を動機づける。
麻雀の行動に特化した複数モデルを含む深層CNNベースのポリシーを開発する。
人間からの教師あり学習と自己対戦RLを橋渡しして性能を向上させる。
ゲーム結果と整合した各局の学習信号を提供するグローバル報酬予測を導入する。
訓練を加速しオンラインプレイを改善するためにオラクル導きと実行時方針適応を取り入れる。

提案手法

人間のログから教師あり学習で5つの行動特化CNNポリシーモデル（Discard、Riichi、Chow、Pong、Kong）を訓練する。
分散設定でエントロピー正則化と重要度サンプリングを用いたポリシー勾配強化学習を行う。
ゲームレベルの結果から各局の報酬を割り当てるGRUベースのグローバル報酬予測器を実装する。
全情報を持つオラクルエージェントを導入し、訓練を導くために徐々に完全情報を落とす（オラクル導き）。
パラメトリックモンテカルロポリシー適応（pMCPA）を適用して、局中の現在の初期手にオフラインポリシーを適応させる。
34枚タイルチャネルと見通し機能を用いて勝ち筋と得点を近似する多チャンネルCNN入力としてゲーム状態をエンコードする。

実験結果

リサーチクエスチョン

RQ1グローバル報酬を用いた深層RLは4人麻雀でトップ人間プレイヤーを上回ることができるか？
RQ2オラクル導きを用いた訓練は標準RLと比較して学習を加速するか？
RQ3異なる初期手札に直面したとき、実行時方針適応は性能を向上させるか？
RQ4監督付き事前学習とRL微調整の後、5つの行動特化モデルはどれくらい良く機能するか？
RQ5最終的なゲーム結果と方針を一致させるグローバル報酬予測器の利用がどのような影響を与えるか？

主な発見

SuphxはTenhouで10段を達成し、ほとんどの上位人間プレイヤーを上回る安定したランクを示す。
RL_basicは教師あり学習を上回り、RL-1とRL-2はRL-basicより進化的な効果を提供する。
グローバル報酬予測は局ごとのスコアより最終的なゲームランクを最適化するのに役立つ。
オラクル導きはRL訓練を加速し、標準RLより良いポリシーを生み出す。
実行時方針適応（pMCPA）は局ごとの適応に実測可能な利益をもたらし、検証設定で勝率が66%向上。
オフライン評価は教師付きモデルの高い精度を示す（Discard 76.7%、Riichi 85.7%、Chow 95.0%、Pong 91.9%、Kong 94.0%）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。