QUICK REVIEW

[論文レビュー] Scalable Bilinear $π$ Learning Using State and Action Features

Yichen Chen, Lihong Li|arXiv (Cornell University)|Apr 27, 2018

Reinforcement Learning in Robotics参考文献 29被引用数 22

ひとこと要約

本稿では、状態と行動の特徴を用いて価値関数と状態行動分布を双線形モデルで近似するスケーラブルでモデルフリーな強化学習アルゴリズム、双線形π学習を提案する。ベルマンの鞍点問題を解くための原双対確率的最適化フレームワークを用いることで、特徴次元に対して線形のサンプル複雑性（MDPのサイズに依存せず）を達成し、サンプル効率的でオンラインな方策最適化を実現する。

ABSTRACT

Approximate linear programming (ALP) represents one of the major algorithmic families to solve large-scale Markov decision processes (MDP). In this work, we study a primal-dual formulation of the ALP, and develop a scalable, model-free algorithm called bilinear $π$ learning for reinforcement learning when a sampling oracle is provided. This algorithm enjoys a number of advantages. First, it adopts (bi)linear models to represent the high-dimensional value function and state-action distributions, using given state and action features. Its run-time complexity depends on the number of features, not the size of the underlying MDPs. Second, it operates in a fully online fashion without having to store any sample, thus having minimal memory footprint. Third, we prove that it is sample-efficient, solving for the optimal policy to high precision with a sample complexity linear in the dimension of the parameter space.

研究の動機と目的

巨大な状態空間と行動空間を有する大規模MDPに対してスケーラブルなモデルフリー強化学習アルゴリズムの開発。
与えられた状態および行動特徴とサンプリングオракルのみを用いて、効率的な方策最適化を可能にする。
特徴に基づくコンact表現を活用することで、MDPのサイズに依存しない低計算量および低メモリ複雑性を実現する。
大規模MDPにおける方策学習に対して、サンプル効率性および収束性に関する強い理論的保証を提供する。

提案手法

ベルマン方程式に基づく原双対鞍点問題として方策最適化を定式化する。
状態特徴φ(s) ∈ ℝ^D および行動特徴ψ(a) ∈ ℝ^U を用いて、価値関数と状態行動分布を双線形モデルで表現する。
1つの遷移を1回ずつ処理する確率的原双対更新を採用し、最小限のメモリでオンライン学習を可能にする。
状態行動分布を状態特徴と行動特徴の双線形関数としてモデル化するコンactパラメータ化を導入する。
近似線形計画法（ALP）の文脈で、結合した原双対ダイナミクスを分析することで収束保証を導出する。
強い双対性を活用して価値関数と方策の更新を結合し、安定的かつ効率的な最適化を保証する。

実験結果

リサーチクエスチョン

RQ1特徴に基づくコンact表現を用いることで、原双対形式の方策最適化をスケーラブルかつサンプル効率的に実現できるか？
RQ2状態と行動の特徴の双線形モデルを用いて、高次元の価値関数と状態行動分布をどのように近似できるか？
RQ3この手法を用いた場合、ϵ-最適方策を学習するためのサンプル複雑性は何か？また、特徴次元にどのように依存するか？
RQ4大規模MDPにおいて、高精度な方策学習を達成しつつ、計算量およびメモリ複雑性を低く維持できるか？
RQ5価値関数および状態行動分布モデルの近似誤差が、学習済み方策の最適性ギャップにどのように影響するか？

主な発見

双線形π学習アルゴリズムは、ϵ-最適方策を求めるためのサンプル複雑性がO(DU / ϵ²)であり、特徴次元DおよびUに線形に依存する。
アルゴリズムの実行時間およびメモリ複雑性は、|S| や |A| に依存せず、DおよびUにのみ依存するため、大規模MDPへのスケーラビリティが保証される。
この手法は完全にオンラインであり、過去のサンプルの保存が不要であり、最小限のメモリフットプリントを実現する。
ベルマン鞍点問題の解と真のベルマン方程式との差は、関数近似器のℓ∞誤差およびℓ1誤差によって上限が与えられる。
実現可能ケース（近似誤差がゼロ）では、鞍点問題を解くことは元のベルマン方程式を解くことに等しい。
多くのADP手法が発散または振動するのとは異なり、有限サンプルレートを保証する明示的な収束性をアルゴリズムが確保する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。