Skip to main content
QUICK REVIEW

[論文レビュー] Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization

Tatsuya Matsushima, Hiroki Furuta|arXiv (Cornell University)|Jun 5, 2020
Reinforcement Learning in Robotics参考文献 62被引用数 50
ひとこと要約

BREMENを紹介する。これは暗黙のKL正則化とダイナミクスモデルのアンサンブルを組み合わせたモデルベースのオフラインRL手法で、展開効率を高めつつ(5–10回の展開)競争力のあるサンプル効率を維持する。

ABSTRACT

Most reinforcement learning (RL) algorithms assume online access to the environment, in which one may readily interleave updates to the policy with experience collection using that policy. However, in many real-world applications such as health, education, dialogue agents, and robotics, the cost or potential risk of deploying a new data-collection policy is high, to the point that it can become prohibitive to update the data-collection policy more than a few times during learning. With this view, we propose a novel concept of deployment efficiency, measuring the number of distinct data-collection policies that are used during policy learning. We observe that naïvely applying existing model-free offline RL algorithms recursively does not lead to a practical deployment-efficient and sample-efficient algorithm. We propose a novel model-based algorithm, Behavior-Regularized Model-ENsemble (BREMEN) that can effectively optimize a policy offline using 10-20 times fewer data than prior works. Furthermore, the recursive application of BREMEN is able to achieve impressive deployment efficiency while maintaining the same or better sample efficiency, learning successful policies from scratch on simulated robotic environments with only 5-10 deployments, compared to typical values of hundreds to millions in standard RL baselines. Codes and pre-trained models are available at https://github.com/matsuolab/BREMEN .

研究の動機と目的

  • 高コストの展開環境(健康、ロボティクス、対話、教育)におけるRLの実用的指標として展開効率を動機づける。
  • 非常に少ないデータ収集ポリシー変更で成功するポリシーを学習するアルゴリズムを開発する。
  • モデルアンサンブルと保守的な更新を活用して、小規模なオフラインデータセットで強い性能を達成する。

提案手法

  • 動作性を含む決定論的ダイナミクスモデルのアンサンブルと、信頼領域最適化によって更新されるポリシーを組み合わせたBehavior-Regularized Model-ENsemble (BREMEN)を提案する。
  • モデルアンサンブルからの想像ロールアウトを用いてポリシーを訓練し、実環境との依存を減らす。
  • 最新データの行動クローンでポリシーを初期化し、分布シフトに対する暗黙的正則化を実現する。
  • KLベースの信頼領域更新を適用してポリシー改善を制約し、学習を正則化する(目的関数への明示的KLペナルティは用いない)。
  • 収集データでダイナミクスモデルを訓練する。展開時にはバッチを収集し、モデルアンサンブルを更新し、データから行動ポリシーを推定してポリシーを再初期化し、想像ロールアウトを用いてオフラインKL制約付きの更新を5回行う。

実験結果

リサーチクエスチョン

  • RQ1展開効率をRLのデータ収集コストとリスクを低減する実用的な指標として使用できるか。
  • RQ2アンサンブルダイナミクスと暗黙のKL正則化を備えたモデルベースのオフラインアプローチは、展開制約下で従来のオンライン/オフラインRL手法を上回るか。
  • RQ3BREMENは、標準のオフラインRLベンチマークでデータセットサイズ(1M、100K、50K)を変化させた場合、および展開制約シナリオでどのように性能を示すか。
  • RQ4行動クローン初期化と暗黙的KL正則化が、モデルバイアスと分布シフトの緩和にどのような影響を与えるか。

主な発見

DatasetAntHalfCheetahHopperWalker2d
1M transitionsBC 1321 ± 141BCQ 2021 ± 31BRAC 2072 ± 285BRAC (max Q) 2369 ± 234BREMEN 3328 ± 275ME-TRPO (offline) 1258 ± 550
100K transitionsBC 1330 ± 81BCQ 1363 ± 199BRAC -157 ± 383BRAC (max Q) -226 ± 387BREMEN 1633 ± 127ME-TRPO (offline) 974 ± 4
50K transitionsBC 1270 ± 65BCQ 1329 ± 95BRAC -878 ± 244BRAC (max Q) -843 ± 279BREMEN 1347 ± 283ME-TRPO (offline) 938 ± 32
  • BREMENは高い展開効率を達成し、MuJoCo連続制御タスクで5–10回の展開のみで成功ポリシーを学習する。
  • オフラインバッチ設定では、1M遷移データセットで競争力のある性能を達成し、より小さなデータセット(10–20倍小さい)でベースラインを上回る。
  • 展開制約設定でSAC、ME-TRPO、BCQ、BRACと比較して、BREMENは限定された展開回数で著しく進捗を示す。
  • 行動クローン初期化と保守的な信頼領域更新は、この設定で明示的KLペナルティよりも優れた暗黙的KL正則化を提供する。
  • BREMENのオフライン性能は標準のベンチマークで最先端のモデルフリー/オフライン手法に近づきつつ、展開回数がはるかに少なくて済む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。