Skip to main content
QUICK REVIEW

[論文レビュー] Beating the World's Best at Super Smash Bros. with Deep Reinforcement Learning

Vlad Firoiu, Whitney, William F.|arXiv (Cornell University)|Feb 21, 2017
Reinforcement Learning in Robotics参考文献 1被引用数 30
ひとこと要約

この論文では、複雑で部分的に観測可能なマルチプレイヤー格闘ゲームであるSuper Smash Bros. Meleeにおいて、トッププロプレイヤーを上回る深層強化学習エージェントを提示している。記憶に基づく状態表現と遅延アクション処理を組み合わせたダュエルDQNとPPOアルゴリズムを用いることで、非定常な相手とフレーム単位の反応速度の高い環境においても、超人クラスのパフォーマンスを達成した。

ABSTRACT

There has been a recent explosion in the capabilities of game-playing artificial intelligence. Many classes of RL tasks, from Atari games to motor control to board games, are now solvable by fairly generic algorithms, based on deep learning, that learn to play from experience with minimal knowledge of the specific domain of interest. In this work, we will investigate the performance of these methods on Super Smash Bros. Melee (SSBM), a popular console fighting game. The SSBM environment has complex dynamics and partial observability, making it challenging for human and machine alike. The multi-player aspect poses an additional challenge, as the vast majority of recent advances in RL have focused on single-agent environments. Nonetheless, we will show that it is possible to train agents that are competitive against and even surpass human professionals, a new result for the multi-player video game setting.

研究の動機と目的

  • Super Smash Bros. Meleeのような複雑でマルチプレイヤーかつ部分的に観測可能なビデオゲームへの深層強化学習の応用を拡張すること。
  • エージェント自身が学習を続ける相手が存在する非定常な環境における挑戦に対処すること。
  • 高難易度のリアルタイム格闘ゲームでエリート人間プレイヤーを上回る能力を持つエージェントを開発すること。
  • 人間のようなアクション遅延と制限された認識能力を有するエージェントの訓練の可能性を調査すること。
  • スパarsely報酬が与えられる環境における内発的探索と報酬形状の有効性を評価すること。

提案手法

  • エージェントは、生のピクセルではなく、ゲームメモリ(位置、速度、行動状態)から得られる状態表現を用いることで、正確な状態観測を可能にした。
  • トレーニングの安定性を高めるために、経験リプレイとターゲットネットワークを併用した、ダュエル深層Qネットワーク(DQN)とプロキシマルポリシーオプティマイゼーション(PPO)をコアRLアルゴリズムとして用いた。
  • アクション遅延は、最後のk+1フレームとそれに対応するアクションをネットワークに入力することでモデル化され、2~4フレームの遅延に対応可能となった。
  • 報酬関数は、ノックアウトに対して+1/-1を、ダメージ差(与えたダメージから受けたダメージを引いたもの)に重みをかけたもので構成され、スパarsely報酬環境での学習を改善した。
  • 探索はPPOにおけるエントロピー正則化とDQNにおける温度スケーリングにより制御され、エントロピーはポリシー多様性の代理指標として用いられた。
  • 大会条件を模倣するために、数秒ごとにエピソードを終了させたが、トレーニングには無限時間モードが使用された。

実験結果

リサーチクエスチョン

  • RQ1深層強化学習エージェントは、Super Smash Bros. Meleeのような複雑でマルチプレイヤーかつ部分的に観測可能な格闘ゲームで、超人クラスのパフォーマンスを達成できるか?
  • RQ2相手も学習を続ける非定常な環境下で、標準的な深層RLアルゴリズムはどのように性能を示すか?
  • RQ3極めてスパarsely報酬が与えられる環境において、内発的探索と報酬形状は、学習効率をどの程度向上できるか?
  • RQ4アクション遅延(例:2フレーム対10フレーム)がエージェントのパフォーマンスと学習安定性に与える影響はどの程度か?
  • RQ5再帰的でないフィードフォワードネットワークは、リアルタイム戦闘において人間のような反応タイミングと予測を効果的に模倣できるか?

主な発見

  • エージェントは超人クラスのパフォーマンスを達成し、競撃戦で十名の上位ランクプレイヤーを上回った。
  • ダュエルDQNとPPOの両エージェントが、ゲーム内AIやベンチマークネットワークといった固定相手を上回った。
  • アクション遅延が6~10フレームを超えるとパフォーマンスが急激に低下し、遅延実行下での有効な学習のための臨界閾値があることが示された。
  • 平均ポリシーのエントロピーが高かったにもかかわらず、エージェントはしばしば繰り返し行動をとったため、エントロピーだけでは真の探索多様性の代理指標として不十分であることが示唆された。
  • ダメージに基づく報酬形状の導入により、ノックアウト報酬のみに依存する場合と比較して、学習効率が著しく向上した。
  • 再帰的ネットワークは最適化の難しさにより正しく訓練できず、高次元でリアルタイムな環境において記憶をモデル化することがいかに困難であるかが浮き彫りになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。