Skip to main content
QUICK REVIEW

[論文レビュー] Monte-Carlo Tree Search as Regularized Policy Optimization

Jean-Bastien Grill, Florent Altché|arXiv (Cornell University)|Jul 24, 2020
Reinforcement Learning in Robotics被引用数 34
ひとこと要約

本論文は、AlphaZeroに類似したMCTSのヒューリスティクスが正則化されたポリシー最適化問題を近似することを示し、厳密解を用いるバリアントを提案して、特に低いシミュレーション予算で性能が向上する。

ABSTRACT

The combination of Monte-Carlo tree search (MCTS) with deep reinforcement learning has led to significant advances in artificial intelligence. However, AlphaZero, the current state-of-the-art MCTS algorithm, still relies on handcrafted heuristics that are only partially understood. In this paper, we show that AlphaZero's search heuristics, along with other common ones such as UCT, are an approximation to the solution of a specific regularized policy optimization problem. With this insight, we propose a variant of AlphaZero which uses the exact solution to this policy optimization problem, and show experimentally that it reliably outperforms the original algorithm in multiple domains.

研究の動機と目的

  • MCTS(特にAlphaZero)と正則化されたポリシー最適化(MPO)との関連を動機づける。
  • AlphaZeroの探索分布が正則化されたポリシー最適化解を近似していることを示す。
  • 厳密なMPO解を使用して頑健性と性能を改善するAlphaZeroのバリアントを提案・評価する。

提案手法

  • 実証的訪問分布 hat{d} の定義と、それが正則化目的とどのように関連するかを示す。
  • AlphaZeroの行動選択がKL発散正則化を伴う正則化されたポリシー最適化の解を近似していることを示す。
  • 厳密なMPO風の解 ar{d} を導出し、それを経験的訪問分布と比較する。
  • AlphaZero の異なる成分で ha0 を ar{d} に置換する3つのバリアント(Act, Search, Learn)を提案する。
  • Act, Search, Learnをすべて組み合わせたAllバリアントを提供し、その学習ターゲットが学習のために ar{d} を使用することを示す。
  • AlphaZeroとUCTを正則化されたポリシー最適化に関連づけ、MCTSベースの手法に対するより広い影響を議論する。

実験結果

リサーチクエスチョン

  • RQ1AlphaZeroの探索ポリシーは正則化されたポリシー最適化解に対応しているか?
  • RQ2経験的訪問分布を厳密なMPO風の解に置換することで、特に低いシミュレーション予算下で性能が向上するか?
  • RQ3MPO風の解からサンプリングされる行動が、MCTSベースのエージェントの学習・探索・作用にどう影響するか?
  • RQ4 Learned priorsを備えたUCTのような他のMCTS変種にもこれらの洞察は適用されるか?
  • RQ5提案されたバリアントはAtariと連続制御ドメインで実証的な利得を生むか?

主な発見

  • AlphaZeroおよび類似のMCTS法は、正則化されたポリシー最適化問題の解を近似する。
  • MPO風の解 ar{d} は計算可能で、特に低いシミュレーション予算下で経験的訪問分布よりも安定したターゲットとして利用できる。
  • 行動・探索・学習のすべてに ar{d} を用いたAllバリアントは、低いシミュレーション予算下でAtari Ms. Pac-Manおよび連続制御タスクのベースラインMuZeroを上回る。
  • ar{d}-ベースのアプローチの性能優位性は、N_simが小さいときに最も顕著で、シミュレーション予算が大きくなるにつれて利得は低下する。理論的収束と一致する。
  • 探索時に ar{d} を用いると顕著な利得が得られ、学習時に使用すると非常に低い予算で役立つ。アプローチを組み合わせると、タスク全体で堅牢な改善をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。