QUICK REVIEW

[論文レビュー] Randomized Linear Programming Solves the Discounted Markov Decision Problem In Nearly-Linear (Sometimes Sublinear) Running Time

Mengdi Wang|arXiv (Cornell University)|Apr 6, 2017

Reinforcement Learning in Robotics参考文献 26被引用数 20

ひとこと要約

本稿では、価値-方策双対性、適応的サンプリング、および二分木データ構造を活用することで、割引マルコフ決定過程（DMDP）をほぼ線形時間で解く確率的線形計画法アルゴリズムを提案する。最悪ケースではほぼ線形実行時間でε-最適方策を達成し、MDPが定常的かつ構造的である場合には線形時間未満の実行時間となる。これは確率的動的計画法の新たな複雑度基準を提示する。

ABSTRACT

We propose a novel randomized linear programming algorithm for approximating the optimal policy of the discounted Markov decision problem. By leveraging the value-policy duality and binary-tree data structures, the algorithm adaptively samples state-action-state transitions and makes exponentiated primal-dual updates. We show that it finds an $ε$-optimal policy using nearly-linear run time in the worst case. When the Markov decision process is ergodic and specified in some special data formats, the algorithm finds an $ε$-optimal policy using run time linear in the total number of state-action pairs, which is sublinear in the input size. These results provide a new venue and complexity benchmarks for solving stochastic dynamic programs.

研究の動機と目的

割引マルコフ決定過程（DMDP）の最適方策を、より優れた実行時間複雑度で近似する確率的アルゴリズムの開発。
正確な最適性を放棄することで、状態空間サイズ$|\mathcal{S}|$および行動空間サイズ$|\mathcal{A}|$に依存するのを軽減する。
特定の構造的ケースにおいてほぼ線形または線形未満の実行時間を達成することで、確率的動的計画問題を解くための新たな複雑度基準を確立する。
価値-方策双対性と指数型更新による情報射影を活用し、効率的な方策学習を可能にする。

提案手法

価値-方策双対性と特別に構築された制約および重みベクトルを用いて、DMDPを確率的サドルポイント問題として定式化する。
現在の確率的方策に基づく適応的行動サンプリングを採用し、計算オーバーヘッドを低減する。
情報射影を制約集合上に適用する指数型プライマルデュアル更新を用い、方策の妥当性を維持するとともに収束を促進する。
二分木データ構造を活用し、状態遷移をシミュレートし、各更新で$\tilde{\mathcal{O}}(1)$時間で方策更新を実行する。
KLダイバージェンスと価値関数誤差を組み合わせたリャプノフ関数$\mathcal{E}^t$を導入し、収束性を分析する。
再帰的期待値バウンド（式14）を導出し、双対ギャップ$\mathcal{G}^t$が大きい場合には$\mathcal{E}^{t+1}$が期待値として減少することを示す。

実験結果

リサーチクエスチョン

RQ1確率的アルゴリズムは、ε-最適性を維持しながら、割引MDPをほぼ線形時間で解くことができるか？
RQ2どのような構造的条件（例：定常性、データフォーマット）の下で、入力サイズに対して線形未満の実行時間を達成できるか？
RQ3適応的サンプリングと二分木データ構造は、方策更新ステップにおける実行時間複雑度の低減にどのように寄与するか？
RQ4双対ギャップ$\mathcal{G}^t$の観点から、提案されたプライマルデュアル法の理論的収束速度はいかほどか？
RQ5情報射影を伴う価値-方策双対性定式化は、安定的かつ効率的な方策更新を可能にするか？

主な発見

最悪ケースでは、$\tilde{\mathcal{O}}(|\mathcal{S}|^2|\mathcal{A}|)$の演算を伴い、ほぼ線形時間でε-最適方策を達成する。
MDPが定常的かつ特殊なデータフォーマットで指定されている場合、合計の状態行動ペア数に比例する線形時間で実行され、入力サイズ$\mathcal{O}(|\mathcal{S}|^2|\mathcal{A}|)$に対して線形未満の実行時間となる。
期待双対ギャップ$\mathcal{G}^t$は$\mathcal{O}\left(\frac{1}{\sqrt{T}}\right)$のレートで減少し、ε-最適方策への収束を保証する。
ステップサイズ$\beta = (1-\gamma)\sqrt{\frac{\log|\mathcal{S}||\mathcal{A}|+1}{2|\mathcal{S}||\mathcal{A}|T}}$を用いることで、収束性と安定性のバランスを取ることができる。
リャプノフ関数$\mathcal{E}^t$は期待値において単調に減少し、$\mathcal{E}^1 \leq \log(|\mathcal{S}||\mathcal{A}|) + 1$を満たすため、タイトな収束バウンドが得られる。
二分木の使用により、$\tilde{\mathcal{O}}(1)$時間の方策更新が可能となり、大規模な状態行動空間へのスケーラビリティが実現される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。