[論文レビュー] Teacher algorithms for curriculum learning of Deep RL in continuously parameterized environments
論文は Continuous Teacher-Student CTS フレームワークと ALP-GMM、Gaussian Mixture Model–based の教師が DRL エージェントの学習進捗をカリキュラム-サンプルとして連続的にパラメータ化された環境分布へ最適化する手法を導入する。
We consider the problem of how a teacher algorithm can enable an unknown Deep Reinforcement Learning (DRL) student to become good at a skill over a wide range of diverse environments. To do so, we study how a teacher algorithm can learn to generate a learning curriculum, whereby it sequentially samples parameters controlling a stochastic procedural generation of environments. Because it does not initially know the capacities of its student, a key challenge for the teacher is to discover which environments are easy, difficult or unlearnable, and in what order to propose them to maximize the efficiency of learning over the learnable ones. To achieve this, this problem is transformed into a surrogate continuous bandit problem where the teacher samples environments in order to maximize absolute learning progress of its student. We present a new algorithm modeling absolute learning progress with Gaussian mixture models (ALP-GMM). We also adapt existing algorithms and provide a complete study in the context of DRL. Using parameterized variants of the BipedalWalker environment, we study their efficiency to personalize a learning curriculum for different learners (embodiments), their robustness to the ratio of learnable/unlearnable environments, and their scalability to non-linear and high-dimensional parameter spaces. Videos and code are available at https://github.com/flowersteam/teachDeepRL.
研究の動機と目的
- 連続パラメータ空間をエンコードする ill-defined なタスク分布を形式化する Continuous Teacher-Student (CTS) フレームワーク。
- DRL の学生を導くために絶対学習進歩を最大化する ALP-GMM および RIAC スタイルの教師を提案・評価する。
- パラメータ化された BipedalWalker 環境を通じて高次元・非線形・部分的に学習不能なパラメータ空間へとスケーラビリティを示す。
- 学習効率を維持しつつ、学習不能領域と無関係なタスク次元に対する頑健性を評価する。
提案手法
- 教師がパラメータ p をサンプルし、それがタスク分布 T(p) にマッピングされ、学生に対して m タスクを選択する Formal CTS フレームワークを定義する。
- 相互作用履歴 H を用いてパラメータ空間全体で学生の最終能力を最大化する目標を定義する。
- ALP-GMM を導入:最近のパラメータ–ALP ペアに GMM を適合させ、ALP に基づくアームを用いた EXP4 で高 ALP 地域をサンプリングし、ランダム探索を組み合わせる。
- nearest による前回サンプル済みパラメータとの報酬差分から導出される各パラメータの ALP を用いてサンプリングを導く。
- ALP-GMM、Covar-GMM、RIAC を Random および Oracle ベースラインと、2つのパラメータ化された BipedalWalker 環境(Stump Tracks と Hexagon Tracks)で比較する。
- DRL エージェントとして Soft Actor-Critic を用い、固定テストセット上で r_p > 230 の二値 mastery 指標によって性能を評価する。
実験結果
リサーチクエスチョン
- RQ1連続的にパラメータ化された環境での学習を支援する LP ベースの教師戦略は DRL エージェントの学習を促進できるか。
- RQ2ALP-GMM および関連する教師は、無学習タスクの比例増加や高次元空間の変化に対して Random および Oracle カリキュラムと比較してどのように性能が変わるか。
- RQ3無関係な次元と非線形の難易度勾配を含む ill-defined なパラメータ空間に対してこれらの手法は頑健か。
- RQ4Hexagon Tracks のような高次元タスク空間に対してアプローチはどれほどスケーラブルか。
主な発見
- ALP-GMM はデフォルトおよびより難しい形態で最終的な平均性能において Covar-GMM および RIAC を上回り、いくつかの設定で Oracle を上回ることができる。
- LP ベースの教師は Random を大幅に上回り、ALP-GMM は実現不可能なタスクの比率が増しても頑健性を示す。
- 高次元の Hexagon Tracks では、ALP-GMM は Oracle より高い mastered-track 百分率を達成(80% 対 68%)、Covar-GMM および RIAC はより悪い結果。
- ALP-GMM は関連性のない次元がある複雑な空間でも他の手法より安定性が高く分散が小さい。
- このアプローチは非線形の難易度勾配や学習不能な部分空間を含む ill-defined なパラメータ空間全体で有効性を維持する。
- Oracle は初期段階で高性能を示す場合がある一方で、PL ベースの教師は忘却を避け、時間とともに進歩を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。