QUICK REVIEW

[論文レビュー] Learning to Search with MCTSnets

Arthur Guez, Théophane Weber|arXiv (Cornell University)|Feb 13, 2018

Artificial Intelligence in Games参考文献 24被引用数 28

ひとこと要約

この論文では、モンテカルロ木探索（MCTS）をエンドツーエンド学習によって学習する、微分可能ニューラルネットワークアーキテクチャであるMCTSnetsを紹介している。手動で設計されたルールの代わりに、シミュレーション方針、価値評価、バックアップ操作の学習可能なコンponentsを導入している。ソコバンの領域において、MCTSnetsははるかに少ないシミュレーション回数で標準的なMCTSベースラインを上回った。これは、学習された探索戦略が手動で設計されたものよりも優れている可能性を示している。

ABSTRACT

Planning problems are among the most important and well-studied problems in artificial intelligence. They are most typically solved by tree search algorithms that simulate ahead into the future, evaluate future states, and back-up those evaluations to the root of a search tree. Among these algorithms, Monte-Carlo tree search (MCTS) is one of the most general, powerful and widely used. A typical implementation of MCTS uses cleverly designed rules, optimized to the particular characteristics of the domain. These rules control where the simulation traverses, what to evaluate in the states that are reached, and how to back-up those evaluations. In this paper we instead learn where, what and how to search. Our architecture, which we call an MCTSnet, incorporates simulation-based search inside a neural network, by expanding, evaluating and backing-up a vector embedding. The parameters of the network are trained end-to-end using gradient-based optimisation. When applied to small searches in the well known planning problem Sokoban, the learned search algorithm significantly outperformed MCTS baselines.

研究の動機と目的

モンテカルロ木探索（MCTS）の学習可能でエンドツーエンド微分可能なバージョンを開発し、ヒューリスティックなルールをニューラルコンponentsに置き換える。
MCTS内でのシミュレーション方針、価値評価、バックアップメカニズムの勾配ベース最適化を可能にする。
学習された探索方針が、シミュレーション効率とパフォーマンスにおいて、手動MCTSを上回れるかどうかを調査する。
微分可能なMCTSフレームワーク内での内部制御フロー（例：行動選択）の信用配分問題に対処する。
MCTSnetsが、モデルベースの計画が困難な小規模な計画タスク（例：ソコバン）において有効であることを示す。

提案手法

MCTSnetsは、探索木の各ノードをメモリベクトルとして表現し、動的計算グラフを用いて前方シミュレーションと後方バックアップによって更新する。
シミュレーション方針は、現在のメモリベクトルに基づいて行動を選択するモジュレートドポリシー構造によって学習され、微分可能な制御フローを実現する。
リーフ状態はニューラルネットワークで埋め込まれ、メモリベクトルを初期化し、価値は学習可能なバックアップネットワークを用いて後方伝搬する。
非微分可能な行動選択プロセスを逆伝播可能にするために、割引係数γを用いた近似信用配分スキームが用いられる。
全ネットワークは教師ありまたは強化学習を用いてエンドツーエンドで訓練され、ルート予測損失を最適化する。
重み共有により、シミュレーション回数Mが任意の数に拡張可能であり、効率的な訓練と推論を可能にする。

実験結果

リサーチクエスチョン

RQ1ニューラルネットワークは、シミュレーション方針、価値関数、バックアップルールを学習することで、手動MCTSよりも効果的にMCTSを実行できるか？
RQ2提案された近似信用配分スキームは、非微分可能なシミュレーション方針の学習に対してどれほど効果的か？
RQ3MCTSnetsで学習された探索戦略は、同等または少ないシミュレーション回数で標準MCTSを上回るか？
RQ4MCTSnetsは、従来のMCTSが苦戦するような複雑な計画タスク（例：ソコバン）に一般化できるか？
RQ5信用配分スキームにおける割引係数γの影響は、学習パフォーマンスにどのような影響を与えるか？

主な発見

25回のシミュレーションしか行わない状況でも、学習されたシミュレーション方針を備えたMCTSnetsは、一様ランダム方針を用いたMCTSを上回った。
信用配分スキームにおいて割引係数γ < 1を用いた場合、γ = 1の場合よりもパフォーマンスが良く、特に初期訓練段階で顕著であった。
最良のMCTSnetアーキテクチャは、標準MCTSベースラインを著しく上回り、シミュレーション回数が1桁少ない状況でも優れた結果を達成した。
蒸留されたシミュレーション方針（学習済み事前分布にエントロピー正則化を適用）は良好な性能を示したが、完全に訓練された学習済み方策には及ばなかった。
MCTSnetsはシミュレーション回数Mに応じて効果的にスケーリングされ、重み共有と情報抽出の向上により、Mが増加するにつれて、より少ない訓練ステップでより良い結果が得られた。
結果から、学習された探索アルゴリズムは、ソコバンのような小規模な計画問題でさえ、手動MCTSを上回ることができると示唆され、複雑なドメインにおける従来MCTSの置き換えの可能性を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。