QUICK REVIEW

[論文レビュー] Is Pessimism Provably Efficient for Offline RL?

Ying Jin, Zhuoran Yang|arXiv (Cornell University)|Dec 30, 2020

Reinforcement Learning in Robotics参考文献 68被引用数 25

ひとこと要約

この論文は、低カバレッジの軌道に起因する誤った相関関係を補正するためのペナルティ関数を用いる、オффライン強化学習のための懐疑的価値反復法PEVIを提案する。データに依存するサブ最適性バウンドを確立し、線形MDPにおいて対数要因を除いてミニマックス最適であることを示し、強いデータカバレッジ仮定を必要とせずに懐疑的アプローチが実際に有効であることを証明する。

ABSTRACT

We study offline reinforcement learning (RL), which aims to learn an optimal policy based on a dataset collected a priori. Due to the lack of further interactions with the environment, offline RL suffers from the insufficient coverage of the dataset, which eludes most existing theoretical analysis. In this paper, we propose a pessimistic variant of the value iteration algorithm (PEVI), which incorporates an uncertainty quantifier as the penalty function. Such a penalty function simply flips the sign of the bonus function for promoting exploration in online RL, which makes it easily implementable and compatible with general function approximators. Without assuming the sufficient coverage of the dataset, we establish a data-dependent upper bound on the suboptimality of PEVI for general Markov decision processes (MDPs). When specialized to linear MDPs, it matches the information-theoretic lower bound up to multiplicative factors of the dimension and horizon. In other words, pessimism is not only provably efficient but also minimax optimal. In particular, given the dataset, the learned policy serves as the "best effort" among all policies, as no other policies can do better. Our theoretical analysis identifies the critical role of pessimism in eliminating a notion of spurious correlation, which emerges from the "irrelevant" trajectories that are less covered by the dataset and not informative for the optimal policy.

研究の動機と目的

相互作用によるデータ収集が不可能な状況で、データカバレッジが不十分であるオフライン強化学習の課題に対処する。
低カバレッジで高報酬の軌道が学習を誤導する誤った相関関係の問題を、一様カバレッジや有限の集中性仮定を置かずに特定・解決する。
最適方策が誘導する軌道をカバーしないデータセットに対しても効率的である理論的根拠に基づくアルゴリズムを開発する。
オフライン強化学習における懐疑的アプローチのミニマックス最適性を確立し、与えられたデータのもとで学習された方策が可能な限り最良であることを示す。

提案手法

オンライン強化学習で用いられる楽観的ボーナスの符号を反転させることで得られるペナルティ関数を組み込んだ、価値反復の懐疑的変種であるPEVIを提案する。
ペナルティ関数を不確実性の定量化子として定義し、不確実性が高く、データカバレッジが低い行動に対してペナルティを与えるようにする。
サブ最適性を3つの要因に分解する：内在的不確実性、誤った相関関係、最適化誤差。これにより、懐疑的アプローチが誤った相関関係をどのように排除するかを明確に分離する。
線形MDPに対しては、カーネルベースの不確実性定量化を用いてペナルティ関数を具体化し、自己正規化過程とカーネルリッジ回帰を活用する。
RKHSにおける自己正規化過程の濃縮不等式を用いて推定誤差をバウンドし、データに依存する一般化バウンドを導出する。
ミニマックス下界を確立し、PEVIのサブ最適性が次元およびホライズンの対数要因を除いてそれと一致することを示し、最適性を証明する。

実験結果

リサーチクエスチョン

RQ1強いデータカバレッジ仮定を必要とせずに、懐疑的アプローチがオフライン強化学習で実際に有効であると言えるか？
RQ2低カバレッジで高報酬の軌道に起因する誤った相関関係を排除する際に、懐疑的アプローチが果たす役割は何か？
RQ3最小限の仮定のもとで、データに依存するサブ最適性バウンドが、タイトなまま保たれるか？
RQ4有限の集中性や有界な密度比を仮定しない線形MDPにおいて、懐疑的価値反復がミニマックス最適性を達成できるか？
RQ5PEVIで学習された方策は、誤ったデータパターンに関係なく、与えられたデータセットのもとで可能な限り最良のものであると言えるか？

主な発見

PEVIは、有限の集中性係数や一様に下限された訪問密度を仮定しない一般のMDPに対して、データに依存するサブ最適性バウンドを達成する。
線形MDPにおいて、PEVIのサブ最適性は次元およびホライズンの対数要因を除いて情報理論的下界と一致し、ミニマックス最適性を証明する。
PEVIにおけるペナルティ関数は不確実性の定量化子として機能し、誤った相関関係がサブ最適性に与える寄与を効果的に排除する。
オフライン強化学習における内在的不確実性は、情報理論的限界のため、根絶できないことが確認され、根本的な障壁であることが示される。
PEVIはオракル性質を示す：そのサブ最適性は、最適方策の軌道をどれだけデータがカバーしているかにのみ依存し、関係のない高報酬・低カバレッジの軌道には影響されない。
理論的分析は最小限の仮定のもとで成立する——データ収集プロセスの整合性のみを要件としており、カバレッジが限られた現実世界の設定にも適用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。