Skip to main content
QUICK REVIEW

[論文レビュー] Reinforcement Learning in Feature Space: Matrix Bandit, Kernels, and Regret Bound

Lin F. Yang, Mengdi Wang|arXiv (Cornell University)|May 24, 2019
Advanced Bandit Algorithms Research参考文献 43被引用数 41
ひとこと要約

MatrixRLを提案するオンライン強化学習アルゴリズム。特徴行列(またはカーネル)を介して遷移ダイナミクスの低次元表現を学習し、状態-行動空間のサイズではなく特徴量の数にスケールするほぼ最適なレグレット境界を達成する。

ABSTRACT

Exploration in reinforcement learning (RL) suffers from the curse of dimensionality when the state-action space is large. A common practice is to parameterize the high-dimensional value and policy functions using given features. However existing methods either have no theoretical guarantee or suffer a regret that is exponential in the planning horizon $H$. In this paper, we propose an online RL algorithm, namely the MatrixRL, that leverages ideas from linear bandit to learn a low-dimensional representation of the probability transition model while carefully balancing the exploitation-exploration tradeoff. We show that MatrixRL achieves a regret bound ${O}\big(H^2d\log T\sqrt{T}\big)$ where $d$ is the number of features. MatrixRL has an equivalent kernelized version, which is able to work with an arbitrary kernel Hilbert space without using explicit features. In this case, the kernelized MatrixRL satisfies a regret bound ${O}\big(H^2\widetilde{d}\log T\sqrt{T}\big)$, where $\widetilde{d}$ is the effective dimension of the kernel space. To our best knowledge, for RL using features or kernels, our results are the first regret bounds that are near-optimal in time $T$ and dimension $d$ (or $\widetilde{d}$) and polynomial in the planning horizon $H$.

研究の動機と目的

  • 探索を導くために特徴表現を用いてRLの次元の呪いに対処する。
  • 遷移ダイナミクスの低次元のコア行列を活用するオンラインRLアルゴリズムを開発する。
  • 状態-行動空間のサイズではなく特徴次元に依存するレグレット保証を提供する。
  • 無限次元の特徴表現を扱うためにカーネル空間への拡張を行う。
  • 特徴ベースおよびカーネルベースのRLにおいて、時間ホライズンTとヒントHでほぼ最適なレグレット境界を示す。

提案手法

  • 遷移モデルPを P( s' | s,a ) = φ(s,a)^T M* ψ(s') として定式化する。φ, ψを特徴写像とする。
  • コア行列M*をリッジ回帰で推定してM_nを得て、A_nを更新し、K_ψを用いてデータ拡張推定量を形成する。
  • 行列信頼球B_nを用いて楽観的なQ関数を構築し、探索と活用のバランスをとる動的計画法。
  • 閉形式の信頼境界を提供し、空間 O(d^2) での実装と各ステップの閉形式更新を可能にする。
  • 行列RLをカーネルGram行列と置換してカーネル化し、KernelMatrixRLを有効次元 ￰tigddとして得るとともに、対応するレグレット境界を導出する。
  • 標準的な楽観的/LinUCB風の拡張を用いて、未知報酬へ適応するオプションを提供する。

実験結果

リサーチクエスチョン

  • RQ1関数近似を用いたRLの探索は、状態-行動空間のサイズではなく特徴次元にスケールするレグレットを達成できるか?
  • RQ2オンラインRLにおいて、行列(特徴)空間で楽観性に基づく探索戦略をどのように構築するか?
  • RQ3Kernel化されたMatrixRLは、有効カーネル次元に依存するレグレット境界を達成し、(潜在的に無限次元の)特徴空間ではなくなるか?
  • RQ4特徴ベースおよびカーネルベースのRLに対する、特徴の適切な正則性仮定の下でのレグレット保証は何か?
  • RQ5提案手法は実用的な空間と時間計算量で効率的に実装できるか?

主な発見

  • MatrixRLは、正則性仮定の下で O(H^2 d log T sqrt(T)) のレグレット境界、または特徴設定に応じてより強い境界で O(H^2 d sqrt(T)) を達成する。
  • Kernel化されたMatrixRLは、O(H^2 ￰tig log T sqrt(T)) のレグレット境界を達成し、￰tilde{d} を有効カーネル次元とする。
  • 境界は時間Tと特徴次元d(または￰tilde{d})ではほぼ最適で、ホライズンHに対して多項式である。
  • アルゴリズムは空間 O(d^2) で動作し、閉形式更新を提供するため高次元設定に実用的である。
  • カーネル化は明示的な特徴を必要とせず、Gram行列を介して動作し、無限次元のカーネル空間にも対応できる。
  • 本研究は、特徴またはカーネルを用いたRLに対する初のレグレット保証を提供し、Tと次元でほぼ最適、Hでは多項式である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。