QUICK REVIEW

[論文レビュー] Q($λ$) with Off-Policy Corrections

Anna Harutyunyan, Marc G. Bellemare|arXiv (Cornell University)|Feb 16, 2016

Cryptography and Data Security被引用数 23

ひとこと要約

本稿では、重要度サンプリングや方策確率に依存せず、現在のQ関数近似を用いてリターンを補正する、新しい非政策的時系列差分学習手法Q(λ)を提案する。この手法は、特徴的トレードオフ条件（適合度トレースλ、割引率γ、方策の相違度ε）の下で収束を示し、分散を増大させる重み付けスキームを用いずに安定な非政策的学習を可能にする。

ABSTRACT

We propose and analyze an alternate approach to off-policy multi-step temporal difference learning, in which off-policy returns are corrected with the current Q-function in terms of rewards, rather than with the target policy in terms of transition probabilities. We prove that such approximate corrections are sufficient for off-policy convergence both in policy evaluation and control, provided certain conditions. These conditions relate the distance between the target and behavior policies, the eligibility trace parameter and the discount factor, and formalize an underlying tradeoff in off-policy TD($λ$). We illustrate this theoretical relationship empirically on a continuous-state control task.

研究の動機と目的

重要度サンプリングや方策確率の重み付けに依存する従来の非政策的TD(λ)手法が示す不安定さと高い分散を是正すること。
行動方策の確率に依存せず、現在のQ関数近似のみを用いてリターンを補正する手法の開発。
非政策的Q(λ)が正しいQπ関数に収束する理論的条件を確立し、λ、ε（方策の相違度）、γの間のトレードオフを形式化すること。
連続状態制御タスクにおいて、行動方策が目標方策から著しく逸脱しても、提案手法が安定性と収束性を維持することを実験的に示すこと。
非勾配的Q(λ)の変種（非グリーディアクションで適合度トレースを切断しないもの）が、理論的かつ実験的に妥当である根拠を提供すること。

提案手法

遷移確率の政策不一致を補正する代わりに、現在のQ関数近似を用いて即時の報酬を補正する新しい非政策的リターン作用素を提案する。
3つのアルゴリズムを定義：非政策的Qπ(λ)、政策的Qπ(λ)、Q*(λ)。これらはすべて、補正されたリターン作用素に基づく。
ベルマン作用素の枠組みを用いて更新規則を形式化し、主な革新点はリターン計算にQベースの補正項を組み込むことである。
ε = max_x ||π(⋅|x)−μ(⋅|x)||₁ で定義される方策の相違度を用いて、Qπ(λ)の収束をλ ≤ (1−γ)/(γε) の条件下で証明する。
制御の文脈では、非グリーディアクションで適合度トレースを切断しないウォーキンズのQ(λ)の変種Q*(λ)を分析し、小さなλ値に対して収束することを示す。
実験的に、自転車ドメインにおける理論的トレードオフを検証し、λが予測された閾値を超えると性能が低下することを示した。

実験結果

リサーチクエスチョン

RQ1政策確率に基づく重要度サンプリング重みを使用せずに、TD(λ)における非政策的収束を達成できるか？
RQ2非政策的収束のための適合度トレースパラメータλ、割引率γ、行動方策と目標方策の相違度εの間の理論的トレードオフは何か？
RQ3非グリーディアクションで適合度トレースを切断しない「ナチュラル」Q(λ)の変種は、特定の条件下で収束するか？
RQ4Q関数に基づく即時の報酬補正は、政策確率の重み付けに代わって非政策的TD(λ)で収束性を保つことができるか？
RQ5理論的境界が完全に確立されていない状況でも、非政策的制御タスクにおけるλ、ε、性能の間には実験的関係が存在するか？

主な発見

提案されたQπ(λ)アルゴリズムは、λ ≤ (1−γ)/(γε) の条件下でQπに収束し、ブートストラップ（λ）、割引（γ）、方策の相違度（ε）の間のトレードオフを明確に形式化した。
重要度サンプリングを回避することで、尤度比の積による分散の増大を排除し、従来の非政策的TD(λ)手法に比べて顕著な利点を有する。
自転車制御ドメインにおける実験結果から、λが理論的閾値を超えると性能が低下することが示され、λ-εトレードオフの存在を裏付けた。
非グリーディアクションで適合度トレースを切断しない「ナチュラル」Q(λ)の変種Q*(λ)は、小さなλ値に対して収束することが示され、このような手法が不安定であるという仮定に疑問を呈した。
理論的分析により、Qπ(λ)は政策的および非政策的TD(λ)の一般化であり、アルゴリズムの変更なしに、非政策的度合いの変動を適応的に処理できることを示した。
εが小さく、λが適切に制限されている場合に完全なバックアップを許容するため、Tree-Backup(λ)よりも安定な代替手法を提供し、政策が近い場合に不要なトレース切断を回避できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。