QUICK REVIEW

[論文レビュー] Can Deep Reinforcement Learning Solve Erdos-Selfridge-Spencer Games?

Maithra Raghu, Alex Irpan|arXiv (Cornell University)|Nov 7, 2017

Reinforcement Learning in Robotics参考文献 14被引用数 8

ひとこと要約

本稿は、深層強化学習（DRL）アルゴリズムの評価に向けた新たな解析可能な環境として、Erdös-Selfridge-Spencer（ESS）ゲームを導入する。これらのゲームは、最適戦略の線形閉形式解が既知である低次元かつパラメータ化可能な設定を提供し、DRLのパフォーマンス、一般化、マルチエージェントダイナミクスを正確に診断可能である。実際、適切に設定されたDRLは、特に自己対戦（self-play）を用いることで、これらのゲームを解くことができる。

ABSTRACT

Deep reinforcement learning has achieved many recent successes, but our understanding of its strengths and limitations is hampered by the lack of rich environments in which we can fully characterize optimal behavior, and correspondingly diagnose individual actions against such a characterization. Here we consider a family of combinatorial games, arising from work of Erdos, Selfridge, and Spencer, and we propose their use as environments for evaluating and comparing different approaches to reinforcement learning. These games have a number of appealing features: they are challenging for current learning approaches, but they form (i) a low-dimensional, simply parametrized environment where (ii) there is a linear closed form solution for optimal behavior from any state, and (iii) the difficulty of the game can be tuned by changing environment parameters in an interpretable way. We use these Erdos-Selfridge-Spencer games not only to compare different algorithms, but test for generalization, make comparisons to supervised learning, analyse multiagent play, and even develop a self play algorithm. Code can be found at: this https URL

研究の動機と目的

深層強化学習（DRL）アルゴリズムの診断に向け、完全に特徴付けられた最適行動を備えた環境の不足を解消すること。
解釈可能でチューナブルな難易度を備え、最適戦略の線形閉形式解が既知の組み合わせゲームの族を提供すること。
最適行動が解析的に扱える設定において、DRLのパフォーマンス、一般化、マルチエージェントダイナミクスを評価すること。
教師あり学習のベースラインと自己対戦アルゴリズムを含むDRLアプローチを、最適行動の真値と比較すること。
ESSゲーム環境で準最適性能を達成する自己対戦アルゴリズムの開発と検証を行うこと。

提案手法

著者らは、Erdös、Selfridge、Spencerにインspiredされた組み合わせゲームの族を定義し、プレイヤーが交互に要素を選択して勝利セットを完成させないようにする。
環境は低次元であり、ゲームサイズと勝利セット構造によってパrameter化されており、難易度の系統的チューニングが可能である。
最適戦略はゲーム理論的解析から導かれた線形閉形式解として特徴付けられ、学習済み方策との正確な比較が可能である。
DRLエージェントは、深層Qネットワークやポリシー勾配法を用いて訓練され、解析的最適ポリシーとの比較によって評価される。
自己対戦は、エージェント同士を対戦させ、その結果に基づいてポリシーを更新することで実装される。
一般化は、あるゲーム設定で訓練されたポリシーを、異なるパrameterを持つ未観測の設定で評価することでテストされる。

実験結果

リサーチクエスチョン

RQ1最適解が解析的に既知の組み合わせゲームにおいて、深層強化学習アルゴリズムは最適ポリシーを学習できるか？
RQ2最適ポリシーが利用可能な状況で、DRLエージェントは部分的な設定で訓練された後、異なるパラメータ化された設定に一般化できるか？
RQ3最適ポリシーが既知の状況で、DRLのパフォーマンスは教師あり学習のベースラインと比べてどの程度優れているか？
RQ4この環境において、自己対戦アルゴリズムは最適または準最適な行動に収束できるか？
RQ5解析的に導かれた最適ポリシーと学習済みポリシーを比較することで、DRLの挙動について何が明らかになるか？

主な発見

適切なアルゴリズムで訓練された深層強化学習エージェントは、Erdös-Selfridge-Spencerゲームにおいて準最適ポリシーを効果的に学習できる。
自己対戦による訓練は、解析的に導出された最適解に近いパフォーマンスを達成するポリシーをもたらす。
訓練分布がテスト分布を十分にカバーするように慎重に設計されない限り、異なるゲームパラメータ化への一般化は限定的である。
最適ポリシーを模倣する教師あり学習ベースラインは、最適ポリシーが利用可能な状況で、標準的なDRLエージェントを上回る性能を示す。
解析的解のおかげで、DRLの失敗（例：部分的な探索やポリシーの崩壊）を正確に診断でき、より複雑な環境では検出が困難な問題を明らかにできる。
この環境は、現在のDRL手法の限界（ハイパーパrameterへの感受性、ゼロショット一般化の劣化）を効果的に露呈している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。