QUICK REVIEW

[論文レビュー] Meta-Gradient Reinforcement Learning

Zhongwen Xu, Hado van Hasselt|arXiv (Cornell University)|May 24, 2018

Machine Learning and Data Classification被引用数 96

ひとこと要約

本論文は、報酬関数のメタパラメータをオンラインで適応させる勾配ベースのメタ学習法を導入し、アタリシリーズ全体の性能を向上させ、200百万フレームで57ゲームにおいて最先端の結果を達成します。

ABSTRACT

The goal of reinforcement learning algorithms is to estimate and/or optimise the value function. However, unlike supervised learning, no teacher or oracle is available to provide the true value function. Instead, the majority of reinforcement learning algorithms estimate and/or optimise a proxy for the value function. This proxy is typically based on a sampled and bootstrapped approximation to the true value function, known as a return. The particular choice of return is one of the chief components determining the nature of the algorithm: the rate at which future rewards are discounted; when and how values should be bootstrapped; or even the nature of the rewards themselves. It is well-known that these decisions are crucial to the overall success of RL algorithms. We discuss a gradient-based meta-learning algorithm that is able to adapt the nature of the return, online, whilst interacting and learning from the environment. When applied to 57 games on the Atari 2600 environment over 200 million frames, our algorithm achieved a new state-of-the-art performance.

研究の動機と目的

単一の lifelong RL タスク内で、リターン設計の選択肢（例：割引因子、ブートストラッピング）を自動的に適応させる動機づけ。
オンラインでメタパラメータをチューニングする勾配ベースのメタ学習アルゴリズムを提案する。
大規模な深層RL設定においてリターンを適応させると性能が向上することを示す。
非定常性に対処するため、メタパラメータに基づいて価値関数/方策関数を条件付けする実用的な枠組みを提供する。
IMPALAとAtari 2600ベンチマークを用いたスケーラビリティを示す。

提案手法

ネットワークパラメータ θ の更新規則を θ' = θ + f(τ, θ, η) と定義し、η はメタパラメータ。
オンラインのクロスバリデーションを導入してメタグラデントを計算する： ∂J'(τ', θ', η')/∂η = (∂J'(τ', θ', η')/∂θ') · (dθ'/dη)。
オンラインで蓄積するランニングトレース z を用いて dθ'/dη を近似する： z' = μ z + ∂f(τ, θ, η)/∂η, where μ ∈ [0,1]。
メタオブジェクティブに対して SGD で η を更新する： Δη = -β ∂J'(τ', θ', η')/∂θ' · z'。
リターンのメタグラデントを、TD/λ や n ステップリターンを η に関して微分することで具体化する（例：γ、λ）。
非定常性を扱うため、ユニバーサル値関数近似スタイルの埋め込みを用いて η に対して価値関数と方策関数を条件付けする： vθ^η(S) = vθ([S; eη]), πθα(S) = πθα([S; eη])。
RMSProp と V-trace オフポリシー補正を用いた A2C スタイルのアクター-クリシーを実践にスケールさせる。並列ミニバッチと軌跡の再利用で実装する。

実験結果

リサーチクエスチョン

RQ1メタグラデントを用いてオンライン学習中に RL のリターン関数（例：γ、λ）を自動的に最適化できるか。
RQ2リターンのオンラインメタ学習は大規模深層RLベンチマークで性能向上につながるか。
RQ3メタパラメータに対して方策と価値関数を条件付けることは非定常性を緩和するのにどの程度寄与するか。
RQ4提案されたメタグラデント手法は Atari 2600 の他の固定リターンベースや他のメタ学習法とどう比較されるか。

主な発見

η	Human starts (γ=0.99)	Human starts (γ=0.995)	No-op starts (γ=0.99)	No-op starts (γ=0.995)
IMPALA	144.4%	211.9%	191.8%	257.1%
{λ}	156.6%	214.2%	185.5%	246.5%
{γ}	233.2%	267.9%	280.9%	275.5%
{γ,λ}	221.6%	292.9%	242.6%	287.6%

メタグラデント RL は IMPALA ベースラインと比べて Atari の中央値人間正規化スコアを大幅に向上させる。
γ、λ または両方を適応させると、固定リターン設定よりも大きな性能向上が得られ、ヒューマンスタートやノーオプス評価の両方で改善される。
γ および λ を用いたメタグラデントは、特定の設定下で中央値スコアを約293%（人間スタート）および288%（ノーオプス）程度達成する。
価値と方策をメタパラメータで埋め込みを用いて条件付けると、条件付けしない場合より性能が向上する。
このアプローチは 200M フレームで Atari における最先端の結果を達成し、同等条件下で Rainbow を凌駕する。
この手法は IMPALA インフラと V-trace のようなオフポリシー補正を用いたままでスケーラブルである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。