QUICK REVIEW

[論文レビュー] Active Domain Randomization

Bhairav Mehta, Manfred Diaz|arXiv (Cornell University)|Apr 9, 2019

Domain Adaptation and Few-Shot Learning参考文献 32被引用数 33

ひとこと要約

Active Domain Randomization (ADR) は、学習を最も有益な環境変化に焦点を当てるパラメータサンプリング戦略を学習し、Uniform Domain Randomization (UDR) に比べて一般化とロバスト性を向上させる。

ABSTRACT

Domain randomization is a popular technique for improving domain transfer, often used in a zero-shot setting when the target domain is unknown or cannot easily be used for training. In this work, we empirically examine the effects of domain randomization on agent generalization. Our experiments show that domain randomization may lead to suboptimal, high-variance policies, which we attribute to the uniform sampling of environment parameters. We propose Active Domain Randomization, a novel algorithm that learns a parameter sampling strategy. Our method looks for the most informative environment variations within the given randomization ranges by leveraging the discrepancies of policy rollouts in randomized and reference environment instances. We find that training more frequently on these instances leads to better overall agent generalization. Our experiments across various physics-based simulated and real-robot tasks show that this enhancement leads to more robust, consistent policies.

研究の動機と目的

均一な乱択が高分散で最適でないポリシーを生み出す理由を調査する。
訓練中に情報量の多い環境変化を学習する ADR を提案する。
シミュレートされたタスクと実ロボットタスクおよび高次元パラメータ空間全体で ADR の有効性を示す。

提案手法

サンプリングポリシーを SVPG（Stein Variational Policy Gradient）で最適化する強化学習問題として DR を定式化する。
リファレンス環境と乱択環境の軌跡の差異を測定する識別器を用いて学習信号を提供する。
情報豊富で多様な乱択環境を提案する SVPG 粒子のアンサンブルを訓練する。
SVPG 粒子によって提案された環境でエージェントポリシーを更新しつつ、サンプリングを導くよう識別器を更新する。
複数の環境にわたって ADR を適用し、一般化とロバスト性の向上を示す。

実験結果

リサーチクエスチョン

RQ1均一に乱択パラメータをサンプリングすることは、ターゲットを絞ったサンプリングと比較して一般化が不十分か？
RQ2ADR は一般化を改善し、ランダム化空間の様々なタスクと次元性に対するポリシーの分散を減らせるか？
RQ3識別器ベースの報酬は、情報豊富な環境へ向けたサンプリングポリシーを導くのに有効か？
RQ4ADR で訓練したポリシーは、UDR で訓練したものより実ロボットへより頑健に転移するか（sim-to-real）？

主な発見

ADR は、UDR が機能しない難しい設定で専門家レベルの一般化に匹敵するか、それに近づく。
ADR は、異なる環境間で分散を低くし、より一貫した性能を生む。
ADR は高次元の乱択空間にスケールし、ターゲットドメイン報酬を必要とせずに sim-to-real 転移を改善する。
問題のある環境での訓練をより頻繁に行う方が、均一サンプリングより全体的な一般化を向上させる。
ADR は、どの環境領域が難しく、より多くの訓練が必要かを強調することで解釈性を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。