QUICK REVIEW

[論文レビュー] Policy Transfer with Strategy Optimization

Wenhao Yu, C. Karen Liu|arXiv (Cornell University)|Oct 12, 2018

Reinforcement Learning in Robotics参考文献 25被引用数 47

ひとこと要約

SO-CMA は、動力学でパラメータ化されたポリシーのファミリーを学習し、次に CMA-ES を用いてターゲット環境で最良の戦略を探索する。大きな動力学ギャップをまたいだ堅牢な sim-to-real 移行を可能にする。

ABSTRACT

Computer simulation provides an automatic and safe way for training robotic control policies to achieve complex tasks such as locomotion. However, a policy trained in simulation usually does not transfer directly to the real hardware due to the differences between the two environments. Transfer learning using domain randomization is a promising approach, but it usually assumes that the target environment is close to the distribution of the training environments, thus relying heavily on accurate system identification. In this paper, we present a different approach that leverages domain randomization for transferring control policies to unknown environments. The key idea that, instead of learning a single policy in the simulation, we simultaneously learn a family of policies that exhibit different behaviors. When tested in the target environment, we directly search for the best policy in the family based on the task performance, without the need to identify the dynamic parameters. We evaluate our method on five simulated robotic control problems with different discrepancies in the training and testing environment and demonstrate that our method can overcome larger modeling errors compared to training a robust policy or an adaptive policy.

研究の動機と目的

大きな動力学の差異を伴う未知の現実世界に近い環境へ、シミュレーションで学習したロボット制御ポリシーの移転を促進する。
タスク性能に基づく動的パラメータを直接最適化することで、明示的なシステム同定を回避する2段階法を開発する。
レイテンシ、アクチュレータのモデリング、変形可能な末端実装など、複数の移動タスクにわたるさまざまな現実性のギャップに対する堅牢性を示す。
限られたターゲット環境サンプルで一貫した移行性能を示すため、Robust、Adaptive、UPOSI のベースラインと比較する。

提案手法

観測値と動的パラメータ mu に条件付けられた単一のニューラルネットワークポリシーを訓練し、異なる動力学をカバーするポリシーのファミリー pi_mu を生成する。
ローアウト中に事前定義された空間から mu をランダムにサンプリングし、ローアウト中は固定して mu に対応する戦略を作る。
各インスタンス化されたポリシー pi_mu を戦略として扱い、mu によってパラメータ化された連続的な戦略ファミリーを形成する。
ターゲット環境で、mu 空間上で CMA-ES を用いて J_Mt(pi_mu) を最大化することで mu* を最適化する。
前の研究と同様に、ランダム化された動力学を用いてベースポリシーを訓練するために PPO を使用し、コンパクトで連続的な戦略表現を実現する。
ターゲット環境でローアウトして適合度を計算することで候補戦略を評価し、CMA-ES の更新を導く。

実験結果

リサーチクエスチョン

RQ1ターゲットの動力学が訓練時の動力学と大きく異なる場合、パラメータ化されたポリシーファミリー上の戦略最適化は、Robust・Adaptive・UPOSI のベースラインよりも転送を改善できるか。
RQ2ランダム化された動力学空間の次元 dim(mu) が、ターゲット領域での転送性能とサンプル効率にどう影響するか。
RQ3ターゲット環境でスパース報酬条件下で動力学パラメータを探索する際、CMA-ES は効果的な最適化手法か。
RQ4SO-CMA は、レイテンシ、アクチュエータのモデリング、変形可能な末端エフェクタなど、どのような現実世界に近い差異をシム→リアル移行で処理できるか。

主な発見

SO-CMA は、制限されたターゲットサンプルでの複数の転送シナリオにおいて、ベースライン手法（Robust、Hist、UPOSI）を一貫して上回る。
dim(mu) を増やすと、ベースライン手法が苦戦する場合に転送性能が向上し、CMA-ES ベースの戦略最適化が最終性能を高める。
SO-CMA は、レイテンシやアクチュエータモデリングの差異など大きなモデリング誤差があってもポリシーの移行に成功し、堅牢または適応的なポリシーが失敗する領域でも機能する。
報酬が sparse の場合、CMA-ES ベースの戦略探索は効果的であり、一部のベースラインは微調整のために密な報酬を必要とする。
本手法は、剛体から変形可能なエンドエフェクタへ移行する転送も示しており、難易度の高い転送タスクに対する汎用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。