QUICK REVIEW

[論文レビュー] Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability

Dibya Ghosh, Jad Rahme|arXiv (Cornell University)|Jul 13, 2021

Reinforcement Learning in Robotics被引用数 26

ひとこと要約

この論文はRLの一般化を、MDPに対する認識論的不確実性に起因する認識論的POMDPを解くこととして再定義し、LEEPアンサ Gran? 申し訳ない。

ABSTRACT

Generalization is a central challenge for the deployment of reinforcement learning (RL) systems in the real world. In this paper, we show that the sequential structure of the RL problem necessitates new approaches to generalization beyond the well-studied techniques used in supervised learning. While supervised learning methods can generalize effectively without explicitly accounting for epistemic uncertainty, we show that, perhaps surprisingly, this is not the case in RL. We show that generalization to unseen test conditions from a limited number of training conditions induces implicit partial observability, effectively turning even fully-observed MDPs into POMDPs. Informed by this observation, we recast the problem of generalization in RL as solving the induced partially observed Markov decision process, which we call the epistemic POMDP. We demonstrate the failure modes of algorithms that do not appropriately handle this partial observability, and suggest a simple ensemble-based technique for approximately solving the partially observed problem. Empirically, we demonstrate that our simple algorithm derived from the epistemic POMDP achieves significant gains in generalization over current methods on the Procgen benchmark suite.

研究の動機と目的

RLの一般化が逐次構造と認識論的不確実性のため supervised 学習より難しい理由を動機づける。
訓練-テスト分割の下での一般化を、後方MDP不確実性に起因する認識論的POMDPとして formalize する。
テスト時リターンを最大化するようにポリシーをアンサンブルし組み合わせる実用的なアルゴリズム（LEEP）を提案する。
Implicit partial observabilityを無視する標準MDPベースのRL手法の失敗モードを分析する。
提案手法を用いてProcGenベンチマークで実証的な利得を示す。

提案手法

MDPの事後分布をサンプルし1つのサンプルMDP内でエピソードを過ごすことにより暗黙的な部分観測を作り出す、認識論的POMDPを導入する。
認識論的POMDPの状態をペア（MDP, s）として定義し、適切に規定された事前分布の下でテスト時のリターンがPOMDPリターンに等しいことを示す。
認識論的POMDPリターンを、事後MDP間のポリシー集合の性能と結びつける理論的境界を導出する。
有限の事後サンプルサイズを持つ経験的認識論的POMDPを提案し、それを後に統合される per-MDP ポリシーへ分解する。
LEEPアルゴリズムを提示し、ブートストラップサンプルで事後を近似し、KL発散に基づく結合項を用いてポリシーのアンサンブルを訓練する。
最終的なポリシーをアンサンブルポリシーを集約してテスト時の性能を最大化する形で構築する。

実験結果

リサーチクエスチョン

RQ1エピステミック不確実性はRLにおける未知の文脈への一般化にどのような影響を与えるか？
RQ2単一MDPではなくエピステミックPOMDPを解くことで一般化を理解・改善できるか？
RQ3LEEPのようなアンサンブルベースのアプローチは訓練文脈が限定的な場合にテスト時リターンを向上させるか？
RQ4Implicit partial observabilityの前提下で標準のMDP中心RL手法の失敗モードは何か？
RQ5ベイズ最適行動を現実的に実装するための実用的な事後近似（例：ブートストラップ）はどのようにコンテキスト型RLに適用できるか？

主な発見

RLにおける一般化は、訓練文脈の認識論的不確実性に起因する暗黙の部分観測によって妨げられる。
認識論的POMDPフレームワークは、MDPの事後分布下でのベイズ最適な振る舞いとテスト時の性能を等価にする。
決定論的でMDP中心のポリシーは、テスト時の不確実性の下でそのままでは良い性能を出しづらい。ベイズ最適な振る舞いはしばしば確率的または非マルコフ的である。
単純なアンサンブルベースの方法（LEEP）はテスト時リターン最大化のためのベイズ最適ポリシーを近似できる。
LEEPはProcGenタスクで標準RLベースラインに対してテスト時の性能を大幅に向上させる。
理論的結果は、MDPごとのポリシー性能とそれらを単一ポリシーで模倣可能性を結びつけ、実践的アルゴリズム設計を導く。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。