QUICK REVIEW

[論文レビュー] Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization

Tatsuya Matsushima, Hiroki Furuta|arXiv (Cornell University)|Jun 5, 2020

Reinforcement Learning in Robotics参考文献 62被引用数 50

ひとこと要約

BREMENを紹介する。これは暗黙のKL正則化とダイナミクスモデルのアンサンブルを組み合わせたモデルベースのオフラインRL手法で、展開効率を高めつつ（5–10回の展開）競争力のあるサンプル効率を維持する。

ABSTRACT

Most reinforcement learning (RL) algorithms assume online access to the environment, in which one may readily interleave updates to the policy with experience collection using that policy. However, in many real-world applications such as health, education, dialogue agents, and robotics, the cost or potential risk of deploying a new data-collection policy is high, to the point that it can become prohibitive to update the data-collection policy more than a few times during learning. With this view, we propose a novel concept of deployment efficiency, measuring the number of distinct data-collection policies that are used during policy learning. We observe that naïvely applying existing model-free offline RL algorithms recursively does not lead to a practical deployment-efficient and sample-efficient algorithm. We propose a novel model-based algorithm, Behavior-Regularized Model-ENsemble (BREMEN) that can effectively optimize a policy offline using 10-20 times fewer data than prior works. Furthermore, the recursive application of BREMEN is able to achieve impressive deployment efficiency while maintaining the same or better sample efficiency, learning successful policies from scratch on simulated robotic environments with only 5-10 deployments, compared to typical values of hundreds to millions in standard RL baselines. Codes and pre-trained models are available at https://github.com/matsuolab/BREMEN .

研究の動機と目的

高コストの展開環境（健康、ロボティクス、対話、教育）におけるRLの実用的指標として展開効率を動機づける。
非常に少ないデータ収集ポリシー変更で成功するポリシーを学習するアルゴリズムを開発する。
モデルアンサンブルと保守的な更新を活用して、小規模なオフラインデータセットで強い性能を達成する。

提案手法

動作性を含む決定論的ダイナミクスモデルのアンサンブルと、信頼領域最適化によって更新されるポリシーを組み合わせたBehavior-Regularized Model-ENsemble (BREMEN)を提案する。
モデルアンサンブルからの想像ロールアウトを用いてポリシーを訓練し、実環境との依存を減らす。
最新データの行動クローンでポリシーを初期化し、分布シフトに対する暗黙的正則化を実現する。
KLベースの信頼領域更新を適用してポリシー改善を制約し、学習を正則化する（目的関数への明示的KLペナルティは用いない）。
収集データでダイナミクスモデルを訓練する。展開時にはバッチを収集し、モデルアンサンブルを更新し、データから行動ポリシーを推定してポリシーを再初期化し、想像ロールアウトを用いてオフラインKL制約付きの更新を5回行う。

実験結果

リサーチクエスチョン

RQ1展開効率をRLのデータ収集コストとリスクを低減する実用的な指標として使用できるか。
RQ2アンサンブルダイナミクスと暗黙のKL正則化を備えたモデルベースのオフラインアプローチは、展開制約下で従来のオンライン/オフラインRL手法を上回るか。
RQ3BREMENは、標準のオフラインRLベンチマークでデータセットサイズ（1M、100K、50K）を変化させた場合、および展開制約シナリオでどのように性能を示すか。
RQ4行動クローン初期化と暗黙的KL正則化が、モデルバイアスと分布シフトの緩和にどのような影響を与えるか。

主な発見

Dataset	Ant	HalfCheetah	Hopper	Walker2d
1M transitions	BC 1321 ± 141	BCQ 2021 ± 31	BRAC 2072 ± 285	BRAC (max Q) 2369 ± 234	BREMEN 3328 ± 275	ME-TRPO (offline) 1258 ± 550
100K transitions	BC 1330 ± 81	BCQ 1363 ± 199	BRAC -157 ± 383	BRAC (max Q) -226 ± 387	BREMEN 1633 ± 127	ME-TRPO (offline) 974 ± 4
50K transitions	BC 1270 ± 65	BCQ 1329 ± 95	BRAC -878 ± 244	BRAC (max Q) -843 ± 279	BREMEN 1347 ± 283	ME-TRPO (offline) 938 ± 32

BREMENは高い展開効率を達成し、MuJoCo連続制御タスクで5–10回の展開のみで成功ポリシーを学習する。
オフラインバッチ設定では、1M遷移データセットで競争力のある性能を達成し、より小さなデータセット（10–20倍小さい）でベースラインを上回る。
展開制約設定でSAC、ME-TRPO、BCQ、BRACと比較して、BREMENは限定された展開回数で著しく進捗を示す。
行動クローン初期化と保守的な信頼領域更新は、この設定で明示的KLペナルティよりも優れた暗黙的KL正則化を提供する。
BREMENのオフライン性能は標準のベンチマークで最先端のモデルフリー/オフライン手法に近づきつつ、展開回数がはるかに少なくて済む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。