QUICK REVIEW

[論文レビュー] Model-Based Reinforcement Learning in Contextual Decision Processes.

Wen Sun, Nan Jiang|arXiv (Cornell University)|Nov 21, 2018

Reinforcement Learning in Robotics被引用数 7

ひとこと要約

本論文は、新しい構造的パラメータであるwitness rankによって制御されるサンプル複雑性を持つ、文脈的意思決定過程におけるモデルベース強化学習アルゴリズムを導入する。witness rankはBellman rankより厳密に小さいことが証明されている。著者らは、Factored MDPsのような豊富な観測設定において、モデルベースとモデルフリーモデルの間で指数的分離を示し、モデルベース手法が有意にサンプル効率的であることを示している。

ABSTRACT

We study the sample complexity of model-based reinforcement learning in general contextual decision processes. We design new algorithms for RL with an abstract model class and analyze their statistical properties. Our algorithms have sample complexity governed by a new structural parameter called the witness rank, which we show to be small in several settings of interest, including Factored MDPs and reactive POMDPs. We also show that the witness rank of a problem is never larger than the recently proposed Bellman rank parameter governing the sample complexity of the model-free algorithm OLIVE (Jiang et al., 2017), the only other provably sample efficient algorithm at this level of generality. Focusing on the special case of Factored MDPs, we prove an exponential lower bound for all model-free approaches, including OLIVE, which when combined with our algorithmic results demonstrates exponential separation between model-based and model-free RL in some rich-observation settings.

研究の動機と目的

一般文脈的意思決定過程におけるモデルベース強化学習のサンプル複雑性を分析すること。
モデルベース学習の複雑性を特徴付ける新しい構造的パラメータ、witness rankを導入すること。
witness rankが、モデルフリー強化学習の最先端パラメータであるBellman rank未満であることを示すこと。
豊富な観測設定におけるモデルベースとモデルフリー手法の間で、指数的サンプル複雑性の分離を確立すること。
複雑な観測構造を持つ設定において、モデルベース手法の優位性に対する理論的根拠を提供すること。

提案手法

著者らは、環境ダイナミクスを表す抽象的モデルクラスを用いて、新しいモデルベース強化学習アルゴリズムを設計する。
彼らは、最適行動を「目撃」できる能力に基づいて、モデルクラスの複雑性を定量化する構造的パラメータとしてwitness rankを導入する。
これらのアルゴリズムは、このパラメータを活用してサンプル複雑性を束縛し、最適方策の学習におけるデータ効率性を保証する。
解析により、witness rankがBellman rankなどの既存パラメータと関連づけられ、それが常にそれ以上でないことが示されている。
この手法は、Factored MDPsや反応型POMDPsを含む一般文脈的意思決定過程に適用可能である。
統計的学習技術をモデルベース強化学習に特化させた理論的保証が導出されている。

実験結果

リサーチクエスチョン

RQ1モデルベース強化学習のサンプル複雑性は、環境モデルの構造にどのように依存するか？
RQ2既存のパラメータよりも、モデルベース学習の複雑性をより tightly 把握できる新しい構造的パラメータを定義できるか？
RQ3一般文脈的意思決定過程において、witness rankは常にBellman rank未満であるか？
RQ4豊富な観測設定において、モデルベース強化学習はモデルフリー手法よりも指数的サンプル効率性の向上を達成できるか？
RQ5Factored MDPsのような設定におけるモデルフリー強化学習の根本的限界は何か？

主な発見

witness rankはBellman rank未満であるため、witness rankを用いたモデルベースアルゴリズムは、OLIVEのようなモデルフリー手法と同等以上に良好なサンプル複雑性を達成できる。
Factored MDPsにおいて、著者らは、OLIVEを含むすべてのモデルフリー手法に対して指数的下界を証明している。
この下界と、彼らのモデルベースアルゴリズムからの上界を組み合わせることで、豊富な観測設定におけるモデルベースとモデルフリー強化学習の間で指数的分離が確立される。
witness rankは、Factored MDPs や反応型POMDPs といった実用的設定において小さいことが示されており、強力なデータ効率性を示唆している。
結果として、複雑な観測構造を持つ環境では、モデルベース強化学習がモデルフリー強化学習よりも指数的にサンプル効率的であることが示された。
理論的枠組みにより、一般文脈的意思決定過程においてモデルベースとモデルフリー強化学習を統一的に分析・比較する手段が提供された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。