QUICK REVIEW

[論文レビュー] Learning with Good Feature Representations in Bandits and in RL with a Generative Model

Tor Lattimore, Csaba Szepesvári|arXiv (Cornell University)|Nov 18, 2019

Advanced Bandit Algorithms Research参考文献 14被引用数 21

ひとこと要約

この論文は、バンディットおよび強化学習（RL）において良好な線形特徴表現が得られる場合、モデルの誤指定があっても近似的に最適な行動を効率的に特定できることを確立している。キエーファ–ヴォルフィッツの定理と最小二乗推定を活用することで、方法は最悪の状況における推定の分散を最小化し、サブオプティマルティギャップが $ O(\varepsilon\sqrt{d}) $ であることを保証する。ここで $ \varepsilon $ は一様近似誤差、$ d $ は特徴次元である。この結果、$ O(d\log\log d) $ 個の行動クエリでのみ効率的な学習が可能になる。

ABSTRACT

The construction by Du et al. (2019) implies that even if a learner is given linear features in $\mathbb R^d$ that approximate the rewards in a bandit with a uniform error of $ε$, then searching for an action that is optimal up to $O(ε)$ requires examining essentially all actions. We use the Kiefer-Wolfowitz theorem to prove a positive result that by checking only a few actions, a learner can always find an action that is suboptimal with an error of at most $O(ε\sqrt{d})$. Thus, features are useful when the approximation error is small relative to the dimensionality of the features. The idea is applied to stochastic bandits and reinforcement learning with a generative model where the learner has access to $d$-dimensional linear features that approximate the action-value functions for all policies to an accuracy of $ε$. For linear bandits, we prove a bound on the regret of order $\sqrt{dn \log(k)} + εn \sqrt{d} \log(n)$ with $k$ the number of actions and $n$ the horizon. For RL we show that approximate policy iteration can learn a policy that is optimal up to an additive error of order $ε\sqrt{d}/(1 - γ)^2$ and using $d/(ε^2(1 - γ)^4)$ samples from a generative model. These bounds are independent of the finer details of the features. We also investigate how the structure of the feature set impacts the tradeoff between sample complexity and estimation error.

研究の動機と目的

生成モデルを用いた確率的バンディットおよびRLにおいて、良好な特徴表現が効率的学習を可能にするかを調査すること。
Du ら（2019）の否定的結果に対処すること。同研究では、一様近似誤差 $ \varepsilon $ の下で $ O(\varepsilon) $-最適方策を得ることは不可能であると示唆している。
サブオプティマルティギャップが $ O(\varepsilon\sqrt{d}) $ である方法を開発すること。これは近似誤差の許容可能な拡大であり、$ O(d\log\log d) $ 個の行動クエリでのみ実現可能である。
学習問題をクエリの複雑さと価値推定に分離することで、線形バンディットおよび生成モデル付きRLにおける解析を可能にすること。

提案手法

キエーファ–ヴォルフィッツの定理を用いて、最小二乗推定における最悪の分散を最小化するように、行動クエリのための近似的最適設計を構築する。
適切に選ばれた $ O(d\log\log d) $ 個の行動を用いて最小二乗推定器を適用し、最大ノルムにおける推定誤差が有界であることを保証する。
線形バンディットでは、レグレットバウンドが $ \sqrt{dn\log k} + \varepsilon n\sqrt{d}\log n $ として導出され、ここで $ n $ はホライズン、$ k $ は行動数である。
生成モデル付きRLでは、$ d/((\varepsilon^2(1-\gamma)^4) $ 個のサンプルを用いて近似政策反復を実行し、方策のサブオプティマルティギャップが $ O(\varepsilon\sqrt{d}/(1-\gamma)^2) $ となるようにする。
解析では、クエリの複雑さと価値推定を分離し、ヘフディングの不等式と作用素ノルムの境界を用いて、政策反復における誤差伝搬を制御する。
この方法は、ベルマン作用素の一様収縮性に依存し、グリーディ政策評価における誤差を $ \|Q - Q^*\|_\infty $ ノルムで境界付ける。

実験結果

リサーチクエスチョン

RQ1次元 $ d $ の特徴空間において、報酬関数が一様誤差 $ \varepsilon $ を伴って線形に近似可能である場合、バンディットおよびRLで効率的学習が達成可能か？
RQ2真の最適行動が特徴空間に含まれない場合でも、$ O(d\log\log d) $ 個の行動クエリでのみ、サブオプティマルティギャップが $ O(\varepsilon\sqrt{d}) $ 以内の近似的最適行動を特定可能か？
RQ3特徴空間の次元 $ d $ が、誤指定線形モデルにおけるサンプル複雑さと推定誤差のトレードオフに与える影響は何か？
RQ4生成モデルからの限られたサンプルで $ Q $-関数を推定する際、近似政策反復における近似誤差を制御可能か？
RQ5サブオプティマルティギャップにおける $ \sqrt{d} $ の誤差拡大は避けられないものか？スパarsityやその他の構造的仮定によりこれを軽減可能か？

主な発見

本論文は、報酬関数が $ d $ 次元線形部分空間から $ \varepsilon $ 以内に収まる場合でさえ、$ O(\varepsilon) $-最適行動を特定するにはほぼすべての行動を調べる必要があると証明している。
肯定的な結果として、$ O(d\log\log d) $ 個の行動クエリでのみ、サブオプティマルティギャップが $ O(\varepsilon\sqrt{d}) $ 以内の行動を特定可能であると示している。
線形バンディットでは、レグレットバウンドが $ \sqrt{dn\log k} + \varepsilon n\sqrt{d}\log n $ であり、これは特定の特徴構造に依存しない。
生成モデル付きRLでは、$ O(d/((\varepsilon^2(1-\gamma)^4)) $ 個のサンプルを用いて、サブオプティマルティギャップが $ O(\varepsilon\sqrt{d}/(1-\gamma)^2) $ である方策を学習可能である。
解析により、最悪ケースでは $ \sqrt{d} $ の誤差拡大が避けられず、RLのバウンドにおける $ 1/(1-\gamma)^2 $ 要素もおそらく改善不能であることが示された。
本手法はクエリの複雑さと価値推定を分離しており、明確な解析を可能にし、非線形関数クラスへの一般化も可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。