[論文レビュー] Mildly Conservative Q-Learning for Offline Reinforcement Learning
MCQは偽ターゲットを用いたOODアクションの積極的訓練を可能にする軽度保守的ベルマン更新を導入し、行動ポリシーを超える収束写像とポリシー改善を生み出し、オフラインおよびオフラインからオンラインへの性能が高い。
Offline reinforcement learning (RL) defines the task of learning from a static logged dataset without continually interacting with the environment. The distribution shift between the learned policy and the behavior policy makes it necessary for the value function to stay conservative such that out-of-distribution (OOD) actions will not be severely overestimated. However, existing approaches, penalizing the unseen actions or regularizing with the behavior policy, are too pessimistic, which suppresses the generalization of the value function and hinders the performance improvement. This paper explores mild but enough conservatism for offline learning while not harming generalization. We propose Mildly Conservative Q-learning (MCQ), where OOD actions are actively trained by assigning them proper pseudo Q values. We theoretically show that MCQ induces a policy that behaves at least as well as the behavior policy and no erroneous overestimation will occur for OOD actions. Experimental results on the D4RL benchmarks demonstrate that MCQ achieves remarkable performance compared with prior work. Furthermore, MCQ shows superior generalization ability when transferring from offline to online, and significantly outperforms baselines. Our code is publicly available at https://github.com/dmksjfl/MCQ.
研究の動機と目的
- learned and behavior policies の分布シフトに対処してオフラインRLを動機付ける。
- 一般化を損なわないように保守性のレベルを適度に保つ。
- 連続制御の実用版を含むMildly Conservative Bellman (MCB) 演算子を提案する。
- MCQアルゴリズムを形成するためMCBをSACと組み合わせ、D4RLベンチマークで検証する。
提案手法
- Mildly Conservative Bellman (MCB) 演算子を、サポート内アクションには標準ベルマンバックアップを、OODアクションには疑似ターゲットを適用する二つのバックアップの合成として定義する。
- CVAEを介してサンプルしたOODアクションとそのQ値を推定する、適用的なMCB演算子を提供する。
- タブラーMDP設定でMCBがガンマ収束であり、導かれるポリシーが挙動ポリシーと同等以上の性能を持ち、CQLや明示的なポリシー制約よりも緩い悲観性であることを示す。
- CVAEを用いて挙動ポリシーを推定し、実用的なMCBをSACに組み込み、λというバランシングパラメータを伴うOODアクション訓練損失を導入する。
- 全体のMCQアルゴリズムを、在分布TD誤差とOODアクション補助損失を組み合わせた critic損失と、標準的なSACの actor 更新で定義する。
- 同じMCB原理を用いたTD3など他のオフポリシー法への拡張について議論する。
実験結果
リサーチクエスチョン
- RQ1MCB演算子による軽度の保守性は、オフラインRLにおいて挙動ポリシーよりも高いポリシー改善を達成できるか。
- RQ2実用的なMCB演算子は、現実的な経験的挙動ポリシーの下でOODアクションの誤って過大評価を防ぐか。
- RQ3MCQはD4RL MuJoCoタスクで最先端のオフラインRLベースラインと比較して特に非専門データセットでどうか。
- RQ4オフラインデータセットからオンラインの微調整へ移行した際、MCQは強いオフラインからオンラインの一般化を示すか。
主な発見
| Task Name | BC | SAC | CQL | UWAC | TD3+BC | IQL | MCQ (ours) |
|---|---|---|---|---|---|---|---|
| halfcheetah-r | 2.2 b1 0.0 | 29.7 b1 1.4 | 17.5 b1 1.5 | 2.3 b1 0.0 | 11.0 b1 1.1 | 13.1 b1 1.3 | 28.5 b1 0.6 |
| hopper-r | 3.7 b1 0.6 | 9.9 b1 1.5 | 7.9 b1 0.4 | 2.7 b1 0.3 | 8.5 b1 0.6 | 7.9 b1 0.2 | 31.8 b1 0.5 |
| walker2d-r | 1.3 b1 0.1 | 0.9 b1 0.8 | 5.1 b1 1.3 | 2.0 b1 0.4 | 1.6 b1 1.7 | 5.4 b1 1.2 | 17.0 b1 3.0 |
| halfcheetah-m | 43.2 b1 0.6 | 55.2 b1 27.8 | 47.0 b1 0.5 | 42.2 b1 0.4 | 48.3 b1 0.3 | 47.4 b1 0.2 | 64.3 b1 0.2 |
| hopper-m | 54.1 b1 3.8 | 0.8 b1 0.0 | 53.0 b1 28.5 | 50.9 b1 4.4 | 59.3 b1 4.2 | 66.2 b1 5.7 | 78.4 b1 4.3 |
| walker2d-m | 70.9 b1 11.0 | -0.3 b1 0.2 | 73.3 b1 17.7 | 75.4 b1 3.0 | 83.7 b1 2.1 | 78.3 b1 8.7 | 91.0 b1 0.4 |
| halfcheetah-m-r | 37.6 b1 2.1 | 0.8 b1 1.0 | 45.5 b1 0.7 | 35.9 b1 3.7 | 44.6 b1 0.5 | 44.2 b1 1.2 | 56.8 b1 0.6 |
| hopper-m-r | 16.6 b1 4.8 | 7.4 b1 0.5 | 88.7 b1 12.9 | 25.3 b1 1.7 | 60.9 b1 18.8 | 94.7 b1 8.6 | 101.6 b1 0.8 |
| walker2d-m-r | 20.3 b1 9.8 | -0.4 b1 0.3 | 81.8 b1 2.7 | 23.6 b1 6.9 | 81.8 b1 5.5 | 73.8 b1 7.1 | 91.3 b1 5.7 |
| halfcheetah-m-e | 44.0 b1 1.6 | 28.4 b1 19.4 | 75.6 b1 25.7 | 42.7 b1 0.3 | 90.7 b1 4.3 | 86.7 b1 5.3 | 87.5 b1 1.3 |
| hopper-m-e | 53.9 b1 4.7 | 0.7 b1 0.0 | 105.6 b1 12.9 | 44.9 b1 8.1 | 98.0 b1 9.4 | 91.5 b1 14.3 | 111.2 b1 0.1 |
| walker2d-m-e | 90.1 b1 13.2 | 1.9 b1 3.9 | 107.9 b1 1.6 | 96.5 b1 9.1 | 110.1 b1 0.5 | 109.6 b1 1.0 | 114.2 b1 0.7 |
| halfcheetah-e | 91.8 b1 1.5 | -0.8 b1 1.8 | 96.3 b1 1.3 | 92.9 b1 0.6 | 96.7 b1 1.1 | 95.0 b1 0.5 | 96.2 b1 0.4 |
| hopper-e | 107.7 b1 0.7 | 0.7 b1 0.0 | 96.5 b1 28.0 | 110.5 b1 0.5 | 107.8 b1 7 | 109.4 b1 0.5 | 111.4 b1 0.4 |
| walker2d-e | 106.7 b1 0.2 | 0.7 b1 0.3 | 108.5 b1 0.5 | 108.4 b1 0.4 | 110.2 b1 0.3 | 109.9 b1 1.2 | 107.2 b1 1.1 |
- MCQはD4RL MuJoCoタスクで全体的に強力な性能を達成し、非専門データセットでいくつかのベースラインを上回り、専門データセットでも競争力を維持している。
- 理論的結果は、MCB演算子が挙動ポリシーのサポート内でガンマ収束であり、誘導されるポリシーは挙動ポリシーと同等以上の性能を、CQLや明示的制約よりも緩い悲観性で示す。
- CVAE推定挙動ポリシーを用いた実用的なMCBは、緩い分布シフト仮定の下で過大評価の誤りを生じない。
- MCQはベースラインと比較してオフラインからオンラインの微調整能力が優れており、オンライン相互作用中にも性能を維持または向上させる。
- この手法はOODアクション評価のためN=10のサンプルを使用し、λは通常[0.7, 1)の範囲で、安定したQ値推定と良い一般化を達成する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。