QUICK REVIEW

[論文レビュー] Lipschitz Continuity in Model-based Reinforcement Learning

Kavosh Asadi, Dipendra Misra|arXiv (Cornell University)|Apr 19, 2018

Reinforcement Learning in Robotics参考文献 37被引用数 37

ひとこと要約

本稿では、遷移ダイナミクスを決定的かつリプシッツ連続関数の混合として表現する、モデルベース強化学習のためのリプシッツモデルクラスを導入する。ニューラルネットワークにおける正則化を用いてリプシッツ連続性を強制することで、ワーサーテイン距離を用いた誤差評価により、マルチステップ予測誤差および価値関数誤差の境界を導出する。その結果、確率的ダイナミクスを有する連続状態環境において、一般化性能および計画性能の向上が示された。

ABSTRACT

We examine the impact of learning Lipschitz continuous models in the context of model-based reinforcement learning. We provide a novel bound on multi-step prediction error of Lipschitz models where we quantify the error using the Wasserstein metric. We go on to prove an error bound for the value-function estimate arising from Lipschitz models and show that the estimated value function is itself Lipschitz. We conclude with empirical results that show the benefits of controlling the Lipschitz constant of neural-network models.

研究の動機と目的

リプシッツ連続性がモデルベース強化学習におけるマルチステップ予測および価値関数推定に与える影響を理解すること。
連続状態M DPにおける関数近似の不安定性を、モデルの滑らかさを制御することによって解消すること。
確率的遷移を表現するため、決定的かつリプシッツ連続関数の混合を用いる、新しいモデルクラス「リプシッツモデルクラス」を構築すること。
リプシッツ連続性に基づく予測誤差および価値関数推定誤差の理論的境界を提供すること。
リプシッツ定数の制御がモデルベース強化学習における計画性能および一般化性能を向上させることを実証的に検証すること。

提案手法

確率的ダイナミクスを、決定的かつリプシッツ連続関数の混合として表現するリプシッツモデルクラスを提唱する。
ワーサーテイン距離を用いて、予測された次状態分布と真の次状態分布との間の分布的差を定量化する。
トラジェクトリーデータからリプシッツ関数の集合とその混合重みを同時に学習するため、期待最大化（EM）アルゴリズムを適用する。
重み正規化またはスペクトルノルム正則化を用いて、ニューラルネットワークのコンponentsにリプシッツ連続性を強制する。
ワーサーテイン距離とリプシッツ定数を用いて、マルチステップ予測誤差および価値関数推定誤差の理論的境界を導出する。
カンタロビッチ＝ルビンシュテイン双対性を用いて、ワーサーテイン距離とリプシッツ制約付き汎関数を結びつけることで、解析および最適化を可能にする。

実験結果

リサーチクエスチョン

RQ1モデルのリプシッツ連続性は、モデルベース強化学習におけるマルチステップ予測誤差にどのように影響するか？
RQ2モデルのコンponentsのリプシッツ連続性は、価値関数推定誤差のよりタイトな境界をもたらすか？
RQ3リプシッツ定数の制御は、確率的で連続状態の環境における計画性能にどのような影響を及えるか？
RQ4リプシッツ連続関数の混合は、どのように確率的遷移ダイナミクスを効果的に表現できるか？
RQ5標準的な関数近似と比較して、リプシッツ連続性の強制は、モデルベース強化学習における一般化およびロバストネスを向上させるか？

主な発見

リプシッツモデルのマルチステップ予測誤差は、1ステップ誤差とリプシッツ定数の関数として、ワーサーテイン距離を誤差指標として用いて境界化されている。
リプシッツモデルから推定された価値関数自体がリプシッツ連続であるため、安定的かつ滑らかな価値推定が保証される。
実験的結果から、教師あり学習におけるリプシッツ定数とテスト損失の間にはU字型の関係が観察され、一般化に最適な値が存在することが示された。
グリッドワールド環境において、リプシッツモデルクラスは、確率的をモデル化できないため失敗するテーブルQ学習および期待値モデルを上回る性能を示した。
EMアルゴリズムは、教師ありおよび強化学習の両設定で、データからリプシッツモデルクラスを効果的に学習でき、収束が確認された。
リプシッツ定数の制御により、グリッドワールド環境における高い報酬が得られるなど、計画におけるポリシー品質が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。