[論文レビュー] COMBO: Conservative Offline Model-Based Policy Optimization
COMBOは、オフラインデータとモデル生成データを用いて保守的なQ関数を最適化し、明示的な不確実性推定なしに、保証された下限とオフラインRLにおける強い一般化を提供する。
Model-based algorithms, which learn a dynamics model from logged experience and perform some sort of pessimistic planning under the learned model, have emerged as a promising paradigm for offline reinforcement learning (offline RL). However, practical variants of such model-based algorithms rely on explicit uncertainty quantification for incorporating pessimism. Uncertainty estimation with complex models, such as deep neural networks, can be difficult and unreliable. We overcome this limitation by developing a new model-based offline RL algorithm, COMBO, that regularizes the value function on out-of-support state-action tuples generated via rollouts under the learned model. This results in a conservative estimate of the value function for out-of-support state-action tuples, without requiring explicit uncertainty estimation. We theoretically show that our method optimizes a lower bound on the true policy value, that this bound is tighter than that of prior methods, and our approach satisfies a policy improvement guarantee in the offline setting. Through experiments, we find that COMBO consistently performs as well or better as compared to prior offline model-free and model-based methods on widely studied offline RL benchmarks, including image-based tasks.
研究の動機と目的
- 不確実なモデル誤差推定に依存せず、オフラインRLの分布シフトに対処する。
- オフラインデータと合成モデルロールアウトの両方を活用して、保守的な値関数を訓練する。
- ポリシー改善の理論的保証と真のリターンの下限を提供する。
- 一般化を要求されるタスクと画像ベースのオフラインRLベンチマークで強力な性能を示す。
提案手法
- オフラインデータセット上で確率的ダイナミクスモデルを訓練する。
- サポート外のモデルロールアウトを分布バランスのBellmanバックアップで罰する保守的なQ関数更新(Eq. 2)を用いる。
- Bellmanバックアップでオフラインデータとモデル生成データを交互に挿入する(Dyna風の拡張)。
- サンプリング分布ρ(s,a)とd_f(s,a)を定義して、サポート外のタプルのQ値を低下させ、データセットでサポートされるタプルのQ値を上昇させる。
- Eq. 3を用いる保守的なクリティックでポリシーを改善し、挙動ポリシーより安全なポリシー改善を保証する。
- Eq. 2の正則化目的を監視してオンラインロールアウトを避けることで、オフラインでハイパーパラメータを調整する。
実験結果
リサーチクエスチョン
- RQ1COMBOは明示的な不確実性量化なしに、オフラインRLで信頼できるポリシー改善を達成できるか?
- RQ2一般化タスクおよび標準ベンチマーク(画像ベースのタスクを含む)において、COMBOは従来のオフラインモデルフリーおよびモデルベース手法とどう比較されるか?
- RQ3保守的クリティックを用いたモデルロールアウトの組み込みは、 oracle不確実性なしに外れ値分布外の一般化を改善するか?
- RQ4リターンの下限および安全なポリシー改善に関するCOMBOの理論的保証は何か?
主な発見
| 環境 | BatchMean | BatchMax | COMBO(Ours) | MOPO | MOReL | CQL |
|---|---|---|---|---|---|---|
| halfcheetah-jump | -1022.6 | 1808.6 | 5308.7 ± 575.5 | 4016.6 | 3228.7 | 741.1 |
| ant-angle | 866.7 | 2311.9 | 2776.9 ± 43.6 | 2530.9 | 2660.3 | 2473.4 |
| sawyer-door-close | 5% | 100% | 98.3 % ± 3.0% | 65.8% | 42.9% | 36.7% |
- COMBOはout-of-distribution一般化を要するタスク(halfcheetah-jumpとsawyer-door-close)でMOPO、MOReL、CQLを上回る。
- ant-angleでは、COMBOはMOPOより約8%、MOReLより約4%、CQLより約12%向上。
- COMBOは標準ベンチマークで従来のオフラインRL手法と同等またはそれを上回り、D4RLのMuJoCo領域12 domain中9領域で最高得点を達成。
- 深層ネットの不確実性推定はオフラインMB RLでは信頼できない;COMBOは不確実性オラクルを必要とせずこれを回避する。
- 理論的結果は、COMBOが真のQ関数を下回らないQ関数を学習し、安全なポリシー改善の保証を提供することを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。