QUICK REVIEW

[論文レビュー] Selecting the State-Representation in Reinforcement Learning

Odalric-Ambrym Maillard, Rémi Munos|arXiv (Cornell University)|Feb 11, 2013

Advanced Bandit Algorithms Research参考文献 12被引用数 30

ひとこと要約

本論文は、複数の候補モデルが利用可能であり、そのうちの1つがマーカフィアンMDPを生成する状況において、強化学習における最適な状態表現を選択するためのアルゴリズムを提案する。UCRL2をサブルーチンとして用い、罰則付き経験的基準を適用することで、$T^{2/3}$オーダーのレグレットバウンドを達成し、真のモデルやそのダイナミクスについての事前知識がなくても近似的に最適な性能を実現可能となる。

ABSTRACT

The problem of selecting the right state-representation in a reinforcement learning problem is considered. Several models (functions mapping past observations to a finite set) of the observations are given, and it is known that for at least one of these models the resulting state dynamics are indeed Markovian. Without knowing neither which of the models is the correct one, nor what are the probabilistic characteristics of the resulting MDP, it is required to obtain as much reward as the optimal policy for the correct model (or for the best of the correct models, if there are several). We propose an algorithm that achieves that, with a regret of order T^{2/3} where T is the horizon time.

研究の動機と目的

複数の候補モデルが存在する状況で、正しい状態表現を選択する課題に対処すること。そのうちの1つはマーカフィアンMDPを誘導する。
真のモデルとその確率的特性を事前に知っているかのように、ほぼ同等の性能を発揮するオンラインアルゴリズムを設計すること。
非マーカフィアンモデルに関する仮定を一切設けず、統計的にマーカフィアン性を検証できない状況でも、有限時間のレグレットバウンドを達成すること。
バンドイット風の学習を、未知のモデル識別性を伴うマーカフィアン決定過程における従属するアームに一般化すること。

提案手法

アルゴリズムは、弱い通信性MDPに対して既知のレグレットバウンドを持つUCRL2をサブルーチンとして用い、各候補モデル内でのポリシー学習を実施する。
推定された平均報酬と信頼区間に基づき、モデル選択のために罰則付き経験的基準を適用する。
指数関数的に増加する時間間隔$\tau_i = 2^i$を用いたマルチステージの探索戦略を採用し、各ステージを2段階に分ける：初期探索のための$\tau_{i,1} = \tau_i^{2/3}$とポリシー評価のための$\tau_{i,2} = \tau_i - \tau_i^{2/3}$。
遷移および報酬推定の推定誤差を制御するために、高確率の信頼区間$B_D(\cdot)$と$B(\cdot)$を用いる。
信頼水準を制御するパrameter $\delta_i(\delta)$ を調整することで、探索と活用のバランスを保ち、累積レグレットが高確率で有界であることを保証する。
複数の事象の和集合を用いたバウンドを組み合わせることで、モデル選択誤りや推定誤差を考慮した高確率のレグレットバウンドを導出する。

実験結果

リサーチクエスチョン

RQ1有限個の候補モデルの中から正しい状態表現が未知である場合、強化学習において近似的に最適な性能を達成できるか？
RQ2真のモデルがマーカフィアンであるが未知であり、他のモデルについての仮定が一切ない状況で、どの程度のレグレットバウンドが達成可能か？
RQ3そのダイナミクスやマーカフィアン性についての事前知識がなく、最良のモデルを選択するオンラインアルゴリズムをどのように設計できるか？
RQ4未知のモデル識別性を伴うマーカフィアン決定過程の枠組みにおいて、バンドイット風の学習を従属するアームに拡張できるか？
RQ5累積レグレットを最小化するために、モデル間の探索と各モデル内での活用の最適なトレードオフは何か？

主な発見

提案されたアルゴリズムは、高確率で$T^{2/3}$オーダーのレグレットバウンドを達成する。これは、既知のMDPにおいて標準的なUCRL2の$T^{1/2}$バウンドに比べて顕著な改善である。
非マーカフィアンモデルについての仮定を一切設けない状況でも、このバウンドは成り立つ。また、アルゴリズムは真のモデルを確実に特定しない。
真のモデルがどれであるかを知らないにもかかわらず、正しいモデルの最適ポリシーの定数倍の性能を達成する。
解析により、累積レグレットが$\mathcal{O}(f(T)S\sqrt{AJ\log(J\delta^{-1})\log T} \cdot T^{2/3}) + \mathcal{O}(DS\sqrt{A\log \delta^{-1} \log T \cdot T}) + \mathcal{O}(2^D)$で有界であることが示された。ここで$f(T) = \log_2(T+1)$である。
特別な場合として$f(T) = \log_2(T+1)$の場合、定数項$c(f,D)$は$2^D$で有界であり、バウンドが有限かつ意味を持つことを保証する。
この手法はモデルの誤特定に対してロバストであり、無限個の離散化や特徴の組み合わせから学習可能であり、将来的な拡張の基盤を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。