[論文レビュー] Bayesian Domain Randomization for Sim-to-Real Transfer.
BayRnは、ベイズ最適化を用いて本番環境のターゲットドメインからサンプリングすることで、訓練中にドメインパラメータ分布を適応的に学習する、シミュレーションから実世界への転移手法を提案する。これにより、事前知識への依存が軽減され、直接的かつ堅牢にロボットにポリシーを適用可能となり、非線形なスイングアップタスクにおいて固定分布ドメインランダマイゼーションを上回る性能を発揮する。
When learning policies for robot control, the real-world data required is typically prohibitively expensive to acquire, so learning in simulation is a popular strategy. Unfortunately, such polices are often not transferable to the real world due to a mismatch between the simulation and reality, called 'reality gap'. Domain randomization methods tackle this problem by randomizing the physics simulator (source domain) according to a distribution over domain parameters during training in order to obtain more robust policies that are able to overcome the reality gap. Most domain randomization approaches sample the domain parameters from a fixed distribution. This solution is suboptimal in the context of sim-to-real transferability, since it yields policies that have been trained without explicitly optimizing for the reward on the real system (target domain). Additionally, a fixed distribution assumes there is prior knowledge about the uncertainty over the domain parameters. Thus, we propose Bayesian Domain Randomization (BayRn), a black box sim-to-real algorithm that solves tasks efficiently by adapting the domain parameter distribution during learning by sampling the real-world target domain. BayRn utilizes Bayesian optimization to search the space of source domain distribution parameters which produce a policy that maximizes the real-word objective, allowing for adaptive distributions during policy optimization. We experimentally validate the proposed approach by comparing against two baseline methods on a nonlinear under-actuated swing-up task. Our results show that BayRn is capable to perform direct sim-to-real transfer, while significantly reducing the required prior knowledge.
研究の動機と目的
- シミュレーションのポリシーが現実世界で失敗する『リアリティギャップ』に起因するシミュレーションから実世界へのポリシー転移問題に対処すること。
- ドメインパラメータの不確実性に関する事前知識を仮定する固定分布ドメインランダマイゼーションの限界を克服すること。
- 訓練中にソースドメインの分布を適応的に調整することで、実世界でのパフォーマンスを最大化し、シミュレーションから実世界への効率的転移を実現すること。
- ドメインパラメータの専門家によるアノテート済み事前知識への依存を減らし、実システムとのインタラクションを通じて最適な分布を学習すること。
- リアリティギャップの明示的モデリングを必要とせず、実世界報酬を最適化するブラックボックスでエンドツーエンドの手法を開発すること。
提案手法
- BayRnは、ポリシー訓練中にソースドメインの分布パラメータを探索するためのベイズ最適化を用いる。
- 訓練中、質量、摩擦、重力などのドメインパラメータが、実世界でのパフォーマンスフィードバックに基づいて適応的に更新される分布からサンプリングされる。
- アルゴリズムは、分布パラメータを最適化すべきハイパーパrameterとして扱い、実世界報酬を目的関数として用いる。
- 確率的スラッグモデル(例:ガウス過程)を用いて、分布パラメータと実世界でのポリシーパフォーマンスの関係をモデル化する。
- この手法はブラックボックスとして動作し、ポリシーネットワークやシミュレータにアーキテクチャの変更を加える必要がない。
- 実世界のロールアウトを用いてポリシーのパフォーマンスを評価し、ドメイン分布の最適化をガイドすることで、事前仮定の必要性を最小限に抑える。
実験結果
リサーチクエスチョン
- RQ1適応的ドメイン分布学習は、固定分布ドメインランダマイゼーションと比較して、シミュレーションから実世界へのポリシー転移を改善できるか?
- RQ2BayRnは、シミュレーションから実世界への転移におけるドメインパラメータ不確実性に関する事前知識の必要性をどの程度低減できるか?
- RQ3BayRnは、ファインチューニングなしに、実世界のロボットシステムへの直接的ポリシー転移をどの程度効果的に可能にするか?
- RQ4ドメイン分布のベイズ最適化は、ベースライン手法と比較して、収束速度と実世界でのパフォーマンスの両面で優れているか?
主な発見
- BayRnは、任意の実世界ファインチューニングを伴わず、非線形なアンダーアクチュエーテッドスイングアップタスクにおいて直接的なシミュレーションから実世界への転移を実現した。
- 標準的なドメインランダマイゼーションと比較して、ドメインパラメータ分布に関する事前知識への依存が顕著に低減された。
- タスクの成功確率を測定したところ、BayRnはベースラインのドメインランダマイゼーション手法よりも高い実世界パフォーマンスを達成した。
- ベイズ最適化による適応的分布学習は、実世界でより高速な収束とより頑健なポリシーをもたらした。
- 本手法は、実世界フィードバックがソースドメイン分布の学習を効果的にガイドできることを示しており、転移性の向上に寄与した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。