QUICK REVIEW

[論文レビュー] Safe and Efficient Off-Policy Reinforcement Learning

Rémi Munos, Thomas Stepleton|arXiv (Cornell University)|Jun 8, 2016

Reinforcement Learning in Robotics参考文献 22被引用数 93

ひとこと要約

この論文は、ツリー・バックアップの安全性とリターンベース学習の効率性を組み合わせた、新たなオフポリシー強化学習アルゴリズムであるRetrace(λ)を提案する。GLIE仮定を必要とせず、最適Q値関数Q*への低分散で安定した収束を保証するとともに、1989年以来未解決であったウォーキンズのQ(λ)の収束を証明する。本手法は重要度サンプリングを用い、補正項を上限で制限することで、任意の行動方策に対しても安定した学習を実現するとともに、オンポリシーのデータを効率的に活用する。

ABSTRACT

In this work, we take a fresh look at some old and new algorithms for off-policy, return-based reinforcement learning. Expressing these in a common form, we derive a novel algorithm, Retrace($λ$), with three desired properties: (1) it has low variance; (2) it safely uses samples collected from any behaviour policy, whatever its degree of "off-policyness"; and (3) it is efficient as it makes the best use of samples collected from near on-policy behaviour policies. We analyze the contractive nature of the related operator under both off-policy policy evaluation and control settings and derive online sample-based algorithms. We believe this is the first return-based off-policy control algorithm converging a.s. to $Q^*$ without the GLIE assumption (Greedy in the Limit with Infinite Exploration). As a corollary, we prove the convergence of Watkins' Q($λ$), which was an open problem since 1989. We illustrate the benefits of Retrace($λ$) on a standard suite of Atari 2600 games.

研究の動機と目的

リターンベース学習（低分散、関数近似と相性が良い）とブートストラップ（オフポリシーデータに対して効率的）の根本的トレードオフを解消し、両者の利点を統合すること。
任意のオフポリシー行動方策に対しても安全であり、高すぎるオフポリシー性による発散を回避すること。
行動方策とターゲット方策が類似している場合の高いサンプル効率を確保するため、経験リプレイからの完全なリターンを活用すること。
オフポリシー制御においてGLIE仮定を不要とし、無限の探索なしに収束を実現すること。
ウォーキンズのQ(λ)の収束を理論的に証明すること — 強化学習分野における長年の未解決問題。

提案手法

λリターンと重要度サンプリングに基づく共通の数学的枠組みを用いて、オフポリシーのリターンベースアルゴリズムを形式化する。
重要度サンプリング比をmin(1, π(a|x)/μ(a|x))で上限を設けることで、任意の行動方策に対しても学習を安定化させ、収束を保証するRetrace(λ)を提案する。
Retrace作用素を、経験リプレイやディープRLに適したオンラインでサンプルベースの学習アルゴリズムに統合する。
政策評価および制御のためのコントラクト作用素を導出し、GLIE仮定なしにQ*への確実収束を証明する。
λリターン拡張を用いてブートストラップとモンテカルロ的リターン推定のバランスを調整し、柔軟で安定した学習を可能にする。
アトラス2600環境におけるディープQネットワークへの応用を通じて、多様なゲームで堅牢な性能を示す。

実験結果

リサーチクエスチョン

RQ1行動方策がターゲット方策から大きく離れている場合でも、安定的かつ収束的であるオフポリシーのリターンベース強化学習アルゴリズムをどのように設計できるか？
RQ2既存のリターンベースアルゴリズムにどのような変更を加えることで、GLIE仮定を必要とせず、最適Q関数Q*への収束を保証できるか？
RQ3Retrace(λ)アルゴリズムは、近いオンポリシー設定では高いサンプル効率を達成し、かつ極めてオフポリシーな状況でも頑健性を示せるか？
RQ4Retrace(λ)は、1989年以来未解決であったウォーキンズのQ(λ)アルゴリズムの収束を証明する解決策を提供するか？
RQ5Retrace(λ)は、経験リプレイと関数近似を伴うディープ強化学習の文脈でも効果的に適用可能か？

主な発見

Retrace(λ)は、GLIE仮定を必要とせず、最適Q値関数Q*への確実収束を達成する最初のオンラインでリターンベースのオフポリシー制御アルゴリズムである。
重要度サンプリング比を1で上限を設けることで、高オフポリシーな行動方策に対しても安全で低分散の学習を実現する。
アトラス2600スイートにおける実験では、Retrace(λ)はTree-backup(λ)および標準DQNを上回り、複数のゲームで平均スコアが高く評価された。
アトラス、スペースインベーダーズ、ビデオピンボールなどのゲームでは、それぞれ2,110,401、6,096、228,283の最終スコアを記録し、DQNおよびTree-backupを著しく上回った。
本論文ではウォーキンズのQ(λ)がQ*に確実に収束することを証明し、1989年以来未解決であった問題を解決した。
Retrace(λ)は、ブートストラップとリターン推定のトレードオフを効果的にバランスさせ、近いオンポリシー状態では効率的であり、極めてオフポリシーな状況でも安全である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。