[論文レビュー] MOPO: Model-based Offline Policy Optimization
MOPOは推定モデル不確実性で報酬をペナルティ化するオフラインモデルベースRL手法を導入し、オフラインデータ分布を越えた安全な一般化を実現。従来のモデルフリーおよびモデルベース手法をD4RLおよび分布外タスクで上回る。
Offline reinforcement learning (RL) refers to the problem of learning policies entirely from a large batch of previously collected data. This problem setting offers the promise of utilizing such datasets to acquire policies without any costly or dangerous active exploration. However, it is also challenging, due to the distributional shift between the offline training data and those states visited by the learned policy. Despite significant recent progress, the most successful prior methods are model-free and constrain the policy to the support of data, precluding generalization to unseen states. In this paper, we first observe that an existing model-based RL algorithm already produces significant gains in the offline setting compared to model-free approaches. However, standard model-based RL methods, designed for the online setting, do not provide an explicit mechanism to avoid the offline setting's distributional shift issue. Instead, we propose to modify the existing model-based RL methods by applying them with rewards artificially penalized by the uncertainty of the dynamics. We theoretically show that the algorithm maximizes a lower bound of the policy's return under the true MDP. We also characterize the trade-off between the gain and risk of leaving the support of the batch data. Our algorithm, Model-based Offline Policy Optimization (MOPO), outperforms standard model-based RL algorithms and prior state-of-the-art model-free offline RL algorithms on existing offline RL benchmarks and two challenging continuous control tasks that require generalizing from data collected for a different task. The code is available at https://github.com/tianheyu927/mopo.
研究の動機と目的
- データのサポート範囲外およびターゲットタスクを超えた一般化が可能なオフラインRLを動機づける。
- 不確実性ペナルティを用いて分布シフトを管理するモデルベースのオフラインRLアルゴリズムを開発する。
- MOPOが真のリターンの下限を最大化することを理論的に保証する。
- アンサンブルベースの不確実性を用いて報酬をペナルティ化する実用的なMOPO実装を提案する。
- 標準的なオフラインRLベンチマークと分布外一般化を要するタスクでMOPOを評価する。
提案手法
- MBPOをベースに、モデル誤差推定から導出される不確実性ベースの報酬ペナルティを組み込む。
- 不確実性ペナルティ報酬を定義する: tilde{r}(s,a) = r(s,a) - lambda * u(s,a).
- 確率モデルのアンサンブルを用いてダイナミクスを推定し、最大アンサンブル分散をu(s,a)として用いる。
- 不確実性ペナルティ入りMDP上でポリシーを学習し、保守的なリターンを最大化する。
- 理論的境界を提供する: eta_M(hat{pi}) >= max_pi { eta_M(pi) - 2 lambda epsilon_u(pi) }。
- lambdaが誤差推定器とどのように関連し、どのように計算されるかを含む、MOPOの実装に関する実用的ガイドラインを提供する。
実験結果
リサーチクエスチョン
- RQ1オフラインのモデルベースRLはデータサポートを越えた一般化を、モデルフリーのオフライン手法よりも良く行えるか。
- RQ2ダイナミクスに関する不確実性をどのように定量化し、報酬へ組み込んでリスクとリターンのバランスを取るべきか。
- RQ3MOPOは標準ベンチマークおよび分布外タスクで既存のモデルフリーオフライン手法を上回るか。
- RQ4MOPOの性能を真のMDPに対して理論的に保証できるのはどの程度か。
主な発見
| Dataset type | BC | MOPO (ours) | MBPO | SAC | BEAR | BRAC-v | |
|---|---|---|---|---|---|---|---|
| random | 2.1 | 35.4 ± 2.5 | 30.7 ± 3.9 | 30.5 | 25.5 | 28.1 | |
| random | halfcheetah | 1.6 | 11.7 ± 0.4 | 4.5 ± 6.0 | 11.3 | 9.5 | 12.0 |
| random | hopper | 1.6 | 11.7 ± 0.4 | 4.5 ± 6.0 | 11.3 | 9.5 | 12.0 |
| medium | halfcheetah | 36.1 | 42.3 ± 1.6 | 28.3 ± 22.7 | -4.3 | 38.6 | 45.5 |
| medium | hopper | 29.0 | 28.0 ± 12.4 | 4.9 ± 3.3 | 0.8 | 47.6 | 32.3 |
| medium | walker2d | 6.6 | 17.8 ± 19.3 | 12.7 ± 7.6 | 0.9 | 33.2 | 81.3 |
| mixed | halfcheetah | 38.4 | 53.1 ± 2.0 | 47.3 ± 12.6 | -2.4 | 36.2 | 45.9 |
| mixed | hopper | 11.8 | 67.5 ± 24.7 | 49.8 ± 30.4 | 1.9 | 10.8 | 0.9 |
| mixed | walker2d | 11.3 | 39.0 ± 9.6 | 22.2 ± 12.7 | 3.5 | 25.3 | 0.8 |
| med-expert | halfcheetah | 35.8 | 63.3 ± 38.0 | 9.7 ± 9.5 | 1.8 | 51.7 | 45.3 |
| med-expert | hopper | 111.9 | 23.7 ± 6.0 | 56.0 ± 34.5 | 1.6 | 4.0 | 0.8 |
| med-expert | walker2d | 6.4 | 44.6 ± 12.9 | 7.6 ± 3.7 | -0.1 | 26.0 | 66.6 |
- MOPOはD4RLベンチマークの複数データセットでモデルフリーオフラインRLアルゴリズムを大幅に上回る。
- MOPOは分布外状態への一般化を要するタスクでも優れ、ベースラインを凌駕し、未知状態に到達する能力を示す。
- 二つの主な結果: (i) MOPOの不確実性ペナルティ型フレームワークは保守的でありつつ有効なポリシー最適化を生み出す; (ii) vanilla MBPOはオフライン設定でSACを凌駕することがあり、バッチRLにおけるモデルベース手法を支持する。
- 学習されたポリシーの性能とモデル誤差に沿った軌跡の間に、潜在的利得とリスクのトレードオフを特徴づける境界が存在する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。