QUICK REVIEW

[論文レビュー] The Sample-Complexity of General Reinforcement Learning

Tor Lattimore, Marcus Hütter|arXiv (Cornell University)|Aug 22, 2013

Reinforcement Learning in Robotics参考文献 19被引用数 33

ひとこと要約

本稿では、任意の環境クラス（有限またはコンパクトなクラス）における一般化強化学習のための新しいアルゴリズムである最大探索強化学習（MERL）を紹介する。本稿は、$ ilde{O} olimits\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log^2\frac{N}{\delta\epsilon(1-\gamma)}\right)$ の近似的最適なサンプル複雑度バウンドを確立し、これは対数要因を除いてタイトである。また、非コンパクトな環境クラスでは有限のサンプル複雑度バウンドが不可能であることを示している。

ABSTRACT

We present a new algorithm for general reinforcement learning where the true environment is known to belong to a finite class of N arbitrary models. The algorithm is shown to be near-optimal for all but O(N log^2 N) time-steps with high probability. Infinite classes are also considered where we show that compactness is a key criterion for determining the existence of uniform sample-complexity bounds. A matching lower bound is given for the finite case.

研究の動機と目的

非マーカフゾビアンおよび非因数化モデルを含む、一般の環境クラスに対して近似的最適なサンプル複雑度を達成する強化学習アルゴリズムの開発。
真の環境がサイズ$N$の有限集合に属することが分かっている任意の環境クラスに対するサンプル複雑度の理論的バウンドの確立。
コンパクトな環境クラス（無限集合）への分析の拡張。価値関数の差に起因するトポロジーに基づく被覆アプローチを用いる。
特に非コンパクトクラスにおいて、有限のサンプル複雑度バウンドが不可能となる条件の同定。
一般ケースにおいて、上界が対数要因を除いて改善不能であることを示す一致する下界の確立。

提案手法

真の環境に関する期待される情報量の増加を最大化する行動選択を行うMERLアルゴリズムを提案。信頼区間に基づく探索戦略を用いる。
有限ホライズンの価値関数近似を採用し、マルティングルの濃度不等式を用いて環境モデルに対する信頼区間を構築する。
コンパクトクラスに対しては被覆に基づくアプローチを採用し、バウンド内の$N$を環境クラスの最小$ olimits\epsilon$-被覆のサイズに置き換える。
すべてのポリシーと履歴における価値関数の差に起因するトポロジーを活用し、環境クラス全体にわたる一様収束の議論を適用する。
信頼度レベルごとのピーリング・アーギュメントと、クラス内すべての環境に対する和集合の不等式を用いてサンプル複雑度バウンドを導出する。
四状態で$N$の行動を持つバンドイットに類似したMDPの集合に基づく反例構成を用いて下界を確立。上界が対数要因を除いてタイトであることを示している。

実験結果

リサーチクエスチョン

RQ1真の環境が$N$個の任意のモデルからなる有限クラスに属することが分かっている場合、強化学習における最適なサンプル複雑度は何か？
RQ2無限だがコンパクトな環境クラスにおいて、有限のサンプル複雑度バウンドが達成可能か。その場合、どのような条件下で可能か？
RQ3有限クラスに対する提案されたサンプル複雑度バウンドは、一般に対数要因を除いて改善不能か？
RQ4環境クラスが非コンパクトである場合、サンプル複雑度バウンドに根本的な制限は何か？
RQ5MERLのサンプル複雑度は、有限MDPやバンドイットのような構造化された設定における既知のバウンドと比べてどうか？

主な発見

MERLは、$N$個の環境からなる有限クラスにおいて、$\tilde{O}\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log^2\frac{N}{\delta\epsilon(1-\gamma)}\right)$ のサンプル複雑度を達成し、これは対数要因を除いて近似的最適である。
コンパクトな環境クラスでは、サンプル複雑度が最小$ olimits\epsilon$-被覆のサイズに依存し、有限ケースと同一の関数的形をとるが、$N$の代わりに被覆サイズが使用される。
一致する下界が確立された：一般に、任意のアルゴリズムが最悪ケースで$\Omega\left(\frac{N}{\epsilon^2(1-\gamma)^3}\log\frac{1}{\delta}\right)$ よりも良いサンプル複雑度を達成することは不可能であり、上界が対数要因を除いてタイトであることが確認された。
非コンパクトな環境クラス（例：すべての計算可能環境の集合、すべての環境の完全なクラス）では、有限のサンプル複雑度バウンドは存在しない。
下界を証明する反例は、$N$個の行動を持つ四状態MDPの集合であり、各環境で一つの行動が最適である。このバウンドは既知のバンドイットの下界と一致する。
分析により、MERLは一般にほぼ改善不能であることが示されたが、最適行動がトラップに進入を要する病理的環境では性能が著しく低下する可能性があり、これはサンプル複雑度基準自体の限界を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。