[論文レビュー] Open-Ended Learning Leads to Generally Capable Agents
tldr: 本論文は XLand を提示する。これは巨大なマルチタスク3D環境とオープンエンドな訓練ループで、ゼロショット一般化と多様なタスク空間にわたる広範な能力を持つエージェントを生み出し、固定分布RLを上回る。動的なタスク生成と、ポリシー蒸留を伴う反復的な世代が継続学習と出現的な挙動を促進する。
In this work we create agents that can perform well beyond a single, individual task, that exhibit much wider generalisation of behaviour to a massive, rich space of challenges. We define a universe of tasks within an environment domain and demonstrate the ability to train agents that are generally capable across this vast space and beyond. The environment is natively multi-agent, spanning the continuum of competitive, cooperative, and independent games, which are situated within procedurally generated physical 3D worlds. The resulting space is exceptionally diverse in terms of the challenges posed to agents, and as such, even measuring the learning progress of an agent is an open research problem. We propose an iterative notion of improvement between successive generations of agents, rather than seeking to maximise a singular objective, allowing us to quantify progress despite tasks being incomparable in terms of achievable rewards. We show that through constructing an open-ended learning process, which dynamically changes the training task distributions and training objectives such that the agent never stops learning, we achieve consistent learning of new behaviours. The resulting agent is able to score reward in every one of our humanly solvable evaluation levels, with behaviour generalising to many held-out points in the universe of tasks. Examples of this zero-shot generalisation include good performance on Hide and Seek, Capture the Flag, and Tag. Through analysis and hand-authored probe tasks we characterise the behaviour of our agent, and find interesting emergent heuristic behaviours such as trial-and-error experimentation, simple tool use, option switching, and cooperation. Finally, we demonstrate that the general capabilities of this agent could unlock larger scale transfer of behaviour through cheap finetuning.
研究の動機と目的
- 広大で手続き的に生成される環境の中で、単一タスクを超えて一般化するエージェントの創出を動機づける。
- 世界、ゲーム、協力プレイヤーのポリシーを組み合わせて、巨大で滑らかな変化をもつタスク空間を作り出す環境空間(XLand)を定義・研究する。
- パフォーマンスのパーセンタイル全体にわたる学習を持続させるため、タスク分布と目標を継続的に変化させるオープンエンド訓練プロセスを開発する。
- 正規化されたスコアのパーセンタイルを用いて進捗を定量化し、保持外の評価タスク全体で出現する一般的な挙動を分析する。
提案手法
- Introduce XLand: 制御可能なエージェント、オブジェクト、ガジェット、報酬を備えたネイティブなマルチエージェント、手続き生成された3D世界空間。
- タスクを世界、ゲーム、および協力プレイヤーポリシーとして表現し、滑らかで多様性に富む広大なタスク空間を形成する。
- 動的に生成される訓練タスクを用い、ゲーム目標を暗黙的にモデルするアテンションベースのネットワークを用いた深層RLによって訓練する。
- 世代を跨ぐポリシー蒸留を伴う反復的な集団ベースの訓練レジームを用い、新しいポリシーをブートストラップし、性能フロンティアを再定義する。
- 評価空間全体で正規化されたスコアパーセンタイルを用いて進捗を測定し、動的タスク生成と一様サンプリングを比較する。
実験結果
リサーチクエスチョン
- RQ1オープンエンドで動的に生成されるタスク空間で訓練されたエージェントは、保持アウトの評価タスク全体でゼロショット一般化を達成できるか?
- RQ2訓練タスクを動的に変化させることは、広大なタスク空間全体で継続学習を可能にする上で、固定分布を上回るか?
- RQ3オープンエンド学習で訓練された一般的に有能なエージェントで出現するヒューリスティックやマルチエージェント挙動にはどのようなものがあるか?
- RQ4このオープンエンド枠組み内で、ゼロショット学習後のファインチューニングはどの程度性能を向上させ得るか?
主な発見
- エージェントは、Hide and Seek、Capture the Flag、Tagを含む多様な評価レベルでゼロショット一般化を示す。
- 新しいタスクで約1億ステップのファインチューニングは、ゼロショットやゼロからの訓練と比較して大きな性能向上をもたらす。
- 方向性探索、他のプレイヤーを通じた情報収集、協調ダイナミクスなどの出現的挙動が評価シナリオに現れる。
- 動的タスク生成は学習に不可欠で、タスク空間の一様サンプリングを上回る。
- エージェントの一般的能力は、安価なファインチューニングを通じた行動のよりスケーラブルな転移の可能性を示唆している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。