QUICK REVIEW

[論文レビュー] End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions

Zakaria Mhammedi, Alexander Rakhlin|arXiv (Cornell University)|Mar 24, 2026

Reinforcement Learning in Robotics被引用数 0

ひとこと要約

論文は、決定的遷移をもつ線形 Bellman 完全 MDP における強化学習のためのエンドツーエンドで計算効率の高いアルゴリズムを提案し、 large action spaces（大規模行動空間）と stochastic rewards/initial states に対処します。多項式的なサンプル計数と計算複雑性を持つエンドツーエンドのアプローチと、 action space のサイズに依存しない代替手法を提供します。

ABSTRACT

We study reinforcement learning (RL) with linear function approximation in Markov Decision Processes (MDPs) satisfying \emph{linear Bellman completeness} -- a fundamental setting where the Bellman backup of any linear value function remains linear. While statistically tractable, prior computationally efficient algorithms are either limited to small action spaces or require strong oracle assumptions over the feature space. We provide a computationally efficient algorithm for linear Bellman complete MDPs with \emph{deterministic transitions}, stochastic initial states, and stochastic rewards. For finite action spaces, our algorithm is end-to-end efficient; for large or infinite action spaces, we require only a standard argmax oracle over actions. Our algorithm learns an $\varepsilon$-optimal policy with sample and computational complexity polynomial in the horizon, feature dimension, and $1/\varepsilon$.

研究の動機と目的

関数近似と決定論的ダイナミクスを前提としたRLのスケーラブルな設定として、線形 Bellman 完全性を動機付け、形式化する。
決定論的遷移下で、有限・大規模行動空間のための計算効率の高いアルゴリズムを開発する。
与えられた仮定の下で、ホライズン・特徴次元・1/ε に多項式依存性をもつ ε-最適ポリシーを学習できるようにする。
制限的な Q 関数パラメータ境界を回避し、報酬パラメータ推定とカバーに依拠する方法を示す。

提案手法

フェーズ I: barycentric spanners と optimistic constraint propagation (OCP) オラクルを用いて層ごとにポリシーカバーを構築する探索。
フェーズ II: 回帰ステップで報酬パラメータを推定し、決定論的報酬を OCP (有限アクション) で計画する。
大規模行動空間の場合、OCP をフィットした Q 反復 (FQI) に置換し、覆い政策 Ψh と spanner Γh を用いて報酬パラメータ推定と正確な回帰を達成する。
フェーズ II ではリッジ回帰で報酬パラメータを推定し、決定論的代理報酬を構成して計画を実行する。
仮定 2.1 および 2.2 の下で高い確率で ε-サブ最適性を示すエンドツーエンド保証を提供する。

実験結果

リサーチクエスチョン

RQ1決定論的遷移を持つ線形 Bellman 完全 MDP において、計算効率の高いアルゴリズムは近似最適ポリシー学習を達成できるか。
RQ2高価な線形最適化や有界 Q の仮定に依存せず、ポリシーカバーを構築してエンドツーエンド学習を行うにはどうすればよいか。
RQ3有限と大規模（无限）アクション空間におけるサンプルと計算複雑性は、前述の仮定の下でどうなるか。
RQ4確率的報酬を、決定論的な計画問題へ還元して適用できるか。

主な発見

有限アクション空間に対するエンドツーエンドアルゴリズムは、多項式のサンプルと計算複雑性で ε-最適性を達成する。
大規模または無限のアクション空間では、argmax オラクルが十分であり、アプローチは |A| に依存せず d, H, 1/ε の多項式で動作する。
フェーズ I は各層で barycentric spanners および OCP ベースの LinOpt と Vec 推定を用いて d サイズのポリシーカバー Γh を構築する。フェーズ II は報酬パラメータを推定し、決定論的代理を最適化する。
エンドツーエンドのスキーム (Algorithm 2 および Algorithm 3) は、前述の仮定の下で高い確率で ε-サブ最適ポリシーを与える。
大規模アクション空間を用いる代替法は、カバレッジ Ψh と spanners Γh を用いた FQI を用い、ε 保証を得る。同時に複雑さは |A| に依存しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。