[論文レビュー] Thinking Fast and Slow with Deep Learning and Tree Search
Expert Iteration (ExIt) は planning と learning を分離し、ツリー探索を expert として neural network apprentice を訓練し、その apprentice が探索を導いて将来の計画を改善する。 この方法は Hex で高い成績を収め、MoHex を打ち負かす。
Sequential decision making problems, such as structured prediction, robotic control, and game playing, require a combination of planning policies and generalisation of those plans. In this paper, we present Expert Iteration (ExIt), a novel reinforcement learning algorithm which decomposes the problem into separate planning and generalisation tasks. Planning new policies is performed by tree search, while a deep neural network generalises those plans. Subsequently, tree search is improved by using the neural network policy to guide search, increasing the strength of new plans. In contrast, standard deep Reinforcement Learning algorithms rely on a neural network not only to generalise plans, but to discover them too. We show that ExIt outperforms REINFORCE for training a neural network to play the board game Hex, and our final tree search agent, trained tabula rasa, defeats MoHex 1.0, the most recent Olympiad Champion player to be publicly released.
研究の動機と目的
- 計画と関数近似を組み合わせて、順序決定問題を解決する。
- 専門家の計画と弟子の汎化を分離するための Expert Iteration (ExIt) を提案する。
- 計画に導かれたニューラルネットワークが探索と学習効率を改善することを示す。
- Hex で ExIt を実証し、REINFORCE および MoHex と比較して競争力を確立する。
提案手法
- Expert Iteration (ExIt) を反復ループとして定義する:自己対戦で状態を収集し、模倣学習で弟子を訓練し、弟子に導かれた木探索を通じて専門家を改善する。
- 専門家を木探索アルゴリズムとして、弟子を深層ニューラルネットワークのポリシー(および任意で値ネットワーク)として扱う。
- 模倣学習のターゲット(CATと tree-policy targets, TPT)を用いて専門家の手の動きから弟子を訓練する;TPT はコスト感度がある。
- オンラインデータセットアグリゲーション(DAgger に類似)を用いてデータ効率を高め、再計算を減らす。
- ボーナス項を含む調整された UCT 公式を用いて、弟子のポリシーによって木探索を偏らせる。
- 葉の値を推定するために値ネットワークを組み込み、ロールアウトと組み合わせるように枠組みを拡張する。
- オンライン分散版 ExIt を実演し、REINFORCE および MoHex に対してバッチ版とオンライン版を比較する。
実験結果
リサーチクエスチョン
- RQ1ExIt は Hex で標準的なポリシー勾配法(例:REINFORCE)よりも速くより強力なポリシーを学習できるか?
- RQ2計画(expert)と汎化(apprentice)を分離することが、学習効率と最終性能を改善するか?
- RQ3オンライン(データセット集約)とバッチ ExIt はデータ効率と安定性の点でどう比較されるか?
- RQ4ExIt におけるポリシーのみとポリシーと値ネットワークの組み合わせの使用が、MoHex のような強力なベースラインに対する探索強度と性能に与える影響は何か?
主な発見
- ExIt は Hex のプレイ用ニューラルネットワークを訓練する際、REINFORCE を上回る。
- 最終的に初期状態からの ExIt エージェントが MoHex 1.0 に対して対戦で勝利する。
- 木ポリシーターゲット(TPT)は模倣学習時に選択行動ターゲット(CAT)よりも強い性能を発揮し、初期データ後に50±13 Elo の改善が報告された。
- DAgger風のオンライン ExIt とデータセット集約は、バッチ ExIt よりデータ効率と最終的な強さを改善する。
- ポリシーネットワークを用いて MCTS をバイアスする(Neural-MCTS)は勝率を劇的に向上させた(例:強力なポリシーネットワークによる 97% の勝利率対 baseline MCTS)。
- 弟子に値ネットワークを追加すると、ポリシーのみの ExIt より専門家の質が大幅に向上し、より強い対局を実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。