Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Unsupervised Environment Design through Hierarchical Policy Representation Learning

Dexun Li, Sidney Tio|arXiv (Cornell University)|Feb 10, 2026
Intelligent Tutoring Systems and Adaptive Learning被引用数 0
ひとこと要約

SHEDは、学生ポリシー表現に基づいて環境を設計する階層的MDP教師を導入し、拡散生成の合成データを用いて制限された相互作用の下で効率的に学習を行い、複数のドメインでベースラインを上回る。

ABSTRACT

Unsupervised Environment Design (UED) has emerged as a promising approach to developing general-purpose agents through automated curriculum generation. Popular UED methods focus on Open-Endedness, where teacher algorithms rely on stochastic processes for infinite generation of useful environments. This assumption becomes impractical in resource-constrained scenarios where teacher-student interaction opportunities are limited. To address this challenge, we introduce a hierarchical Markov Decision Process (MDP) framework for environment design. Our framework features a teacher agent that leverages student policy representations derived from discovered evaluation environments, enabling it to generate training environments based on the student's capabilities. To improve efficiency, we incorporate a generative model that augments the teacher's training dataset with synthetic data, reducing the need for teacher-student interactions. In experiments across several domains, we show that our method outperforms baseline approaches while requiring fewer teacher-student interactions in a single episode. The results suggest the applicability of our approach in settings where training opportunities are limited.

研究の動機と目的

  • tight interaction budgets の下で RL エージェントの訓練環境を設計するフレームワークを開発する。
  • 評価環境全体でポリシーベースの性能ベクトルとして学生の能力を表現する。
  • 拡散ベースの世界モデルを活用して合成教師体験を生成する。
  • 初期の教師訓練を複数の学生セッションにまたいで償却し、効率を改善する。

提案手法

  • 上位レベルに教師、下位レベルに学生を持つ二層階層MDPとして環境設計を定式化する。
  • m 個の評価環境における性能ベクトル p(π) を用いて学生の能力を表現し、環境生成を誘導する。
  • 条件付き拡散モデルを用いてオフポリシーの教師訓練用の合成遷移 (s^u, a^u, s^u′) を生成する。
  • 学習進捗と評価環境全体の公平性を組み合わせた教師報酬を定義する。
  • 評価環境を離散化して、学生ポリシーの有限で安定した表現を作成する(定理4.1の正当化)。
  • SHED を強力なベースライン(ACCEL、編集版 ACCEL、PAIRED、h-MDP)と厳密な相互作用予算の下で評価する。

実験結果

リサーチクエスチョン

  • RQ1予算制約の下で進化する学生能力に効果的に合わせた環境生成を階層的MDPの教師は実現できるか?
  • RQ2拡散ベースの合成データは教師のオフポリシー訓練を加速し、ポリシー品質を損なわないか?
  • RQ3評価環境の離散化は学生ポリシー表現の安定性と一般化にどう影響するか?
  • RQ4SHED を搭載した教師は資源制約下で見 unseen 環境へのゼロショット転送性能を既存の UED 手法より向上させるか?

主な発見

  • SHEDはLunar Lander、Bipedal Walker、Mazeの各タスクで相互作用制限下においてベースラインを上回る。
  • SHEDは unseen テスト環境でのゼロショット転送性能をより高く示す。
  • 拡散生成の合成軌跡は実データの必要性を減少させ、教師訓練を加速する。
  • 拡散データなしのh-MDPと比較して、低変動性(安定したIQMと狭い誤差帯)を示す。
  • アブレーションにより、拡散データは拡散を用いない場合の性能向上を超える貢献をすることが示された。
  • 初期の教師訓練コストは後続の学生訓練エピソードに渡って償却される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。