[論文レビュー] Human-Timescale Adaptation in an Open-Ended Task Space
本論文は Adaptive Agent(AdA)を提案する。これは大規模な memory-augmented RL エージェントで、メタRLを用いてオープンエンドな3Dタスク空間で訓練され、人間のタイムスケールの適応とゼロショット/少数ショットの一般化を達成し、ファーストパーソンのデモンストレーションを含む。
Foundation models have shown impressive adaptation and scalability in supervised and self-supervised learning problems, but so far these successes have not fully translated to reinforcement learning (RL). In this work, we demonstrate that training an RL agent at scale leads to a general in-context learning algorithm that can adapt to open-ended novel embodied 3D problems as quickly as humans. In a vast space of held-out environment dynamics, our adaptive agent (AdA) displays on-the-fly hypothesis-driven exploration, efficient exploitation of acquired knowledge, and can successfully be prompted with first-person demonstrations. Adaptation emerges from three ingredients: (1) meta-reinforcement learning across a vast, smooth and diverse task distribution, (2) a policy parameterised as a large-scale attention-based memory architecture, and (3) an effective automated curriculum that prioritises tasks at the frontier of an agent's capabilities. We demonstrate characteristic scaling laws with respect to network size, memory length, and richness of the training task distribution. We believe our results lay the foundation for increasingly general and adaptive RL agents that perform well across ever-larger open-ended domains.
研究の動機と目的
- 規模を拡大して訓練されたRLエージェントが、広大なオープンエンドタスク空間で人間のタイムスケールの文脈適応を示すことができるかを調査する。
- 見知らぬタスクにおいて、テスト時の試行が少数で適応できるメモリベースのメタRLを備えたAdAを開発する。
- 高速適応を可能にする記憶アーキテクチャ、オートカリキュラム、タスク分布の豊かさの役割を探る。
- デモンストレーションを介したゼロショットプロンプティングを実証し、単一エージェントおよびマルチエージェント環境での適応を評価する。
提案手法
- フロンティアが豊富なプールからサンプリングされたXLand 2.0タスクで、メタRLを用いて大規模なTransformerベースのエージェントを訓練する。
- オートカリキュラム(ノーオペフィルタリングとPLR)を用いて、エージェントの能力のフロンティアでタスクを選択する。
- 試行を跨いだ迅速な適応を可能にするため、Transformer-XLと注意機構を備えたRNNといったメモリアーキテクチャを用いる。
- Muesli RLアルゴリズムと教師モデルからの蒸留(キックスターティング)損失を組み合わせて訓練を拡張する。
- 保持アウトされたテストおよび手作成の探査タスクでゼロショットおよび少数ショット適応を評価し、マルチエージェントの状況を含む。)
実験結果
リサーチクエスチョン
- RQ1広範なオープンエンドのタスク分布で訓練された大規模なRLエージェントは、テスト時の経験を数分以内に見知らぬタスクへ適応できるか。
- RQ2記憶アーキテクチャ、カリキュラム、タスク分布の豊かさが迅速な適応性能に与える影響は何か。
- RQ3単一エージェントおよびマルチエージェント設定で人間のタイムスケールの適応を示すか。
- RQ4ファーストパーのデモンストレーションによるゼロショットプロンプティングは適応をさらに改善できるか。
- RQ5モデルサイズ、メモリ長といったスケール要因が適応性能にどう影響するか。
主な発見
- AdAは人間のタイムスケールの適応を示し、ほとんどの保持アウトタスクでより多くのテスト試行を行うことで性能が向上する。
- Transformer-XLメモリが最適な適応性能をもたらし、RNNベースのメモリを上回る。
- オートカリキュラム(ノーオペフィルタリングとPLR)は、均一なタスクサンプリングよりゼロショット一般化と少数ショット適応を改善する。
- ファーストパーのデモンストレーションを用いたゼロショットプロンプティングは性能をさらに高める。
- モデルサイズとメモリ長を拡大すると適応能力が成長し、より多くの試行が提供されるほど高い利益を得られる。
- テスト時の適応中にマルチエージェントタスクで協調的挙動や分業が出現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。