[論文レビュー] EPOpt: Learning Robust Neural Network Policies Using Model Ensembles
EPOpt は、シミュレーションモデルのアンサンブルを用いた敵対的トレーニングと、ターゲットドメインデータを用いた源分布の適応によって、頑健なニューラルポリシーを訓練します。
Sample complexity and safety are major challenges when learning policies with reinforcement learning for real-world tasks, especially when the policies are represented using rich function approximators like deep neural networks. Model-based methods where the real-world target domain is approximated using a simulated source domain provide an avenue to tackle the above challenges by augmenting real data with simulated data. However, discrepancies between the simulated source domain and the target domain pose a challenge for simulated training. We introduce the EPOpt algorithm, which uses an ensemble of simulated source domains and a form of adversarial training to learn policies that are robust and generalize to a broad range of possible target domains, including unmodeled effects. Further, the probability distribution over source domains in the ensemble can be adapted using data from target domain and approximate Bayesian methods, to progressively make it a better approximation. Thus, learning on a model ensemble, along with source domain adaptation, provides the benefit of both robustness and learning/adaptation.
研究の動機と目的
- モデル誤設定と安全性の懸念の下で物理制御の頑健な強化学習を動機付ける。
- アンサンブル訓練を用いてソースモデルの分布に跨るポリシーを一般化させる方法を提案する。
- ターゲット領域データを用いてソースモデル分布の適応を導入し、ターゲットダイナミクスをより良く近似する。
提案手法
- ソースドメインのパラメータ分布からサンプルされたモデルのアンサンブルを用いてポリシー更新の軌道を生成する。
- アンサンブル内の最悪のモデルに学習を集中させるCVaR(epsilonパーセンタイル)目的関数を最適化する。
- 最悪のepsilon分率の軌道を用いてポリシーを更新するTRPOベースのバッチポリシー最適化サブルーチンを用いる。
- ターゲットドメインの軌道を用いた近似ベイズ更新を通じてモデルパラメータを refine することでソースドメイン分布を適応させる。
- 任意で、ターゲットドメインが大幅に異なる場合に適応中のモデルサンプルの重みを再評価するための重要サンプリングを適用することもある。
実験結果
リサーチクエスチョン
- RQ1モデルの分布(アンサンブル)での訓練は、単一モデル訓練と比べてモデルミスマッチに対するポリシー頑健性を向上させるか。
- RQ2epsilon-CVaR に基づく EPOpt 変種はターゲットドメインへの直接転送性能にどのように影響するか。
- RQ3EPOpt はソースドメインのアンサンブルでは捕捉されない未モデリング効果に対して頑健なポリシーを学習できるか。
- RQ4限られたターゲットドメインデータでソース分布をどれだけ効率的に適応できるか。
- RQ5転移学習のためのベイズ RL におけるモデル適応と標準的な最大尤度モデル選択の比較的利点は何か。
主な発見
- EPOpt-ε で訓練されたポリシーは Hopper および Half-Cheetah のベンチマークで、単一モデル TRPO よりも幅広いモデルインスタンスに対して一般化する。
- EPOpt(0.1) は、さまざまなモデルパラメータに対して強い直接転送性能を発揮する非常に頑健なポリシーを生み出す。
- ソースドメインに多様なパラメータを含める場合、EPOpt は未モデリング効果に対して頑健だが、ソース分布に mass を含めるほど頑健性は向上する。
- ターゲットドメインのパラメータデータが比較的少量でもモデル適応はソース分布をターゲットドメインに合わせることができ、時間とともにターゲット性能を向上させる。
- EPOpt の直接転送性能は、より保守的で頑健な戦略を採用しても大きく劣化しない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。