QUICK REVIEW

[論文レビュー] TreeQN and ATreeC: Differentiable Tree-Structured Models for Deep Reinforcement Learning

Gregory Farquhar, Tim Rocktäschel|arXiv (Cornell University)|Oct 31, 2017

Reinforcement Learning in Robotics被引用数 28

ひとこと要約

本稿では、エンドツーエンドで学習可能な遷移モデルを深層強化学習におけるオンライン計画に統合する微分可能で再帰的な木構造モデル、TreeQN および ATreeC を提案する。木バックアップを微分可能演算として定式化することで、価値推定に特化した遷移ダイナミクスを学習し、n-step DQN や A2C、価値予測ネットワークよりも優れた性能を達成した。深さのある木構造はしばしばより良い性能を示した。

ABSTRACT

Combining deep model-free reinforcement learning with on-line planning is a promising approach to building on the successes of deep RL. On-line planning with look-ahead trees has proven successful in environments where transition models are known a priori. However, in complex environments where transition models need to be learned from data, the deficiencies of learned models have limited their utility for planning. To address these challenges, we propose TreeQN, a differentiable, recursive, tree-structured model that serves as a drop-in replacement for any value function network in deep RL with discrete actions. TreeQN dynamically constructs a tree by recursively applying a transition model in a learned abstract state space and then aggregating predicted rewards and state-values using a tree backup to estimate Q-values. We also propose ATreeC, an actor-critic variant that augments TreeQN with a softmax layer to form a stochastic policy network. Both approaches are trained end-to-end, such that the learned model is optimised for its actual use in the tree. We show that TreeQN and ATreeC outperform n-step DQN and A2C on a box-pushing task, as well as n-step DQN and value prediction networks (Oh et al. 2017) on multiple Atari games. Furthermore, we present ablation studies that demonstrate the effect of different auxiliary losses on learning transition models.

研究の動機と目的

モデル誤差が計画の有効性を制限する複雑で高次元の環境において、オンライン計画のための正確な遷移モデルを学習する課題に対処すること。
ポリシー関数や価値関数に微分可能な木構造の価値推定プロセスを直接統合することで、モデルフリーの深層強化学習におけるサンプル効率と計画精度を向上させること。
ポリシーと価値関数とともに、遷移モデルをエンドツーエンドで学習させ、観測再構成よりも実際に計画性能を最適化するようにすること。
補助損失が、環境に強く根ざした遷移モデルを形成しつつ、性能を維持し、内部の計画を解釈可能にするかどうかを検討すること。

提案手法

TreeQN は、抽象状態空間における共有で学習された遷移モデルを再帰的に適用することで、微分可能な再帰的木を構築し、報酬と次状態価値の集約による木バックアップによって Q 値を計算する。
木構造はバックプロパゲーションによって微分可能であり、遷移モデル、報酬ヘッド、価値ヘッドを一括してエンドツーエンドで学習可能である。
ATreeC は、木出力の上にソフトマックス層を追加することで確率的ポリシーネットワークを構築し、アクタ・クリティック学習を可能にした。
モデルは、即時の報酬と割引された次状態価値の再帰的合計として Q 値を計算する微分可能な木バックアップ操作を用い、木のノード間でパラメータを共有する。
遷移モデルの忠実性を向上させるために補助損失を導入し、観測空間での再構成損失と抽象空間における将来状態の予測を含む。
全体のアーキテクチャは、ポリシーグラデントまたは Q 学習の目的関数を用いてエンドツーエンドで訓練され、遷移モデルは生成的再構成よりも計画精度を最適化するために最適化される。

実験結果

リサーチクエスチョン

RQ1エンドツーエンドで学習される遷移モデルを備えた微分可能で再帰的な木構造モデルは、深層強化学習におけるオンライン計画を改善できるか？
RQ2観測再構成よりも計画性能を最適化するために遷移モデルを学習することで、サンプル効率と最終的な性能が向上するか？
RQ3TreeQN や ATreeC におけるより深い木構造は、浅い木構造や標準的な DQN アーキテクチャよりも優れた性能を示すか？
RQ4遷移モデルの監視に補助損失を用いることで、計画精度とモデルの解釈可能性にどのような影響を与えるか？
RQ5微分可能な木探索を価値関数やポリシーに統合することで、複雑な制御タスクや Atari ゲームにおいて、既存のモデルベースおよびモデルフリーのベースラインを上回る性能を達成できるか？

主な発見

TreeQN は 26 ゲーム中 18 ゲームで n-step DQN や価値予測ネットワーク（VPN）を上回り、Ms. Pac-Man や Q*bert では顕著な向上を示した。
ATreeC はすべての Atari 環境で A2C と同等またはそれを上回る性能を示したが、Seaquest では早期にポリシーの崩壊を経験した。
TreeQN-2 は Atari で平均ヒューマン正規化スコア 9302 を達成し、n-step DQN の最高報告スコア 7860 や A2C の 8241 を上回った。
ボックスプッシュング領域では、TreeQN と ATreeC が n-step DQN や A2C を上回り、TreeQN-2 は 15688 の最終スコアを記録したのに対し、n-step DQN は 14468 であった。
より深い木（例：TreeQN-2）はしばしば浅い木よりも優れた性能を示し、再帰的計画が価値推定を改善することを示唆している。
アブレーションスタディでは、報酬関数の根拠づけが性能向上に寄与することが分かったが、性能の低下を伴わずに強く根拠づけられた遷移モデルを学習することは、依然として未解決の課題である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。