QUICK REVIEW

[論文レビュー] Blending MPC & Value Function Approximation for Efficient Reinforcement Learning

Mohak Bhardwaj, Sanjiban Choudhury|arXiv (Cornell University)|Dec 10, 2020

Reinforcement Learning in Robotics参考文献 28被引用数 3

ひとこと要約

本論文は、不正確なMPCモデルの誤差と価値関数近似の誤差を減衰パラメータλを用いて体系的にトレードオフすることで、モデル予測制御（MPC）とモデルフリー強化学習を統合するMPQ(λ)というフレームワークを提案する。この手法は、深刻なモデルバイアス下でも、サンプル効率が良く、高次元の操作タスクにおいて真のダイナミクスを備えたMPCと同等の性能を達成する。

ABSTRACT

Model-Predictive Control (MPC) is a powerful tool for controlling complex, real-world systems that uses a model to make predictions about future behavior. For each state encountered, MPC solves an online optimization problem to choose a control action that will minimize future cost. This is a surprisingly effective strategy, but real-time performance requirements warrant the use of simple models. If the model is not sufficiently accurate, then the resulting controller can be biased, limiting performance. We present a framework for improving on MPC with model-free reinforcement learning (RL). The key insight is to view MPC as constructing a series of local Q-function approximations. We show that by using a parameter $\lambda$, similar to the trace decay parameter in TD($\lambda$), we can systematically trade-off learned value estimates against the local Q-function approximations. We present a theoretical analysis that shows how error from inaccurate models in MPC and value function estimation in RL can be balanced. We further propose an algorithm that changes $\lambda$ over time to reduce the dependence on MPC as our estimates of the value function improve, and test the efficacy our approach on challenging high-dimensional manipulation tasks with biased models in simulation. We demonstrate that our approach can obtain performance comparable with MPC with access to true dynamics even under severe model bias and is more sample efficient as compared to model-free RL.

研究の動機と目的

実世界のロボット制御タスクにおけるモデルバイアスによるMPCの性能低下を是正すること。
訓練中に近似モデルを活用することで、モデルフリー強化学習のサンプル効率を向上させること。
MPCベースの計画と学習された価値関数を動的にバランスする統合フレームワークの開発。
モデル不適合度や計画ホライズンの不確実性の変動に対しても、頑健な性能を実現すること。
正確なダイナミクスモデルへの依存を減らしながら、モデルフリーRLや真のダイナミクスを有するMPCと同等の高い漸近的性能を維持すること。

提案手法

MPCを有限ホライズン上で局所的Q関数近似の系列を生成するものとして扱う。
TD(λ)におけるトレース減衰に類似したブレンドパラメータλを導入し、MPCの局所的Q推定値と学習された価値関数の間を補間する。
エピソードにわたって時間的に変化するλを用い、価値関数推定が向上するに従いMPCモデルへの依存を徐々に低減する。
MPCのコスト・トゥ・ゴールと価値関数推定を組み合わせた有限ホライズン計画目的関数を定式化し、合計期待コストを最小化する。
MPPIなどのサンプリングベースMPCに動的λスケジュールを適用し、モデルバイアスと推定分散の両方のトレードオフをバランスさせる。
価値関数をオフポリシーの深層強化学習アルゴリズム（例：PPO）を用いて学習させ、長期間の意思決定を精緻化すると同時に、MPCを短期計画に活用する。

実験結果

リサーチクエスチョン

RQ1MPCとモデルフリーRLを統合したハイブリッドアプローチは、制御タスクにおけるモデルバイアスの影響を低減できるか？
RQ2MPCモデル誤差と価値関数近似誤差のトレードオフを体系的にバランスできるか？
RQ3時間的に減少するλを用いることで、固定λやホライズンチューニングに比べ、サンプル効率と漸近的性能が向上するか？
RQ4大きなモデル不適合（例：質量や摩擦係数のバイアス）下でも、MPQ(λ)は性能を維持できるか？
RQ5サンプリングベースMPCにおける計画ホライズンや軌道サンプル数の変動に対して、MPQ(λ)はどれほど頑健か？

主な発見

MPQ(λ)は、深刻なモデルバイアス（例：質量バイアス要因b=2.0）下でも、真のダイナミクスを有するMPCやモデルフリーRLと同等の性能を、極限において達成する。
INHANDMANIPULATIONタスクでは、150k訓練ステップ経過後も改善が見られないPPOに比べ、MPQ(λ)は顕著に優れた性能を示す。
SAWYEROPEGINSERTIONタスクでは、MPQ(λ)はセンサーノイズに適応でき、MPCモデルにバイアスがある場合、MPPIはターゲット付近での制御が悪く失敗するが、MPQ(λ)は正確な挿入を可能にする。
質量、慣性、摩擦係数のバイアスレベルが変化する状況下でも、MPQ(λ)は高い成功確率（バイアス付きMPPIに比べ30%以上優れる）を維持する。
計画ホライズンや粒子数に対してMPQ(λ)は頑健である：固定ホライズンMPCに比べ、λを用いることでこれらのハイパーパrameterへの感受性が低下する。
時間的に減少するλを用いることで、ホライズンチューニングに比べ、収束性と漸近的性能が向上し、異なる減衰率でも安定した結果が得られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。