[論文レビュー] Scaling Instructable Agents Across Many Simulated Worlds
SIMA は自由形式の指示に従う、様々な3D環境で動作する言語誘導型具現エージェントを、人間データと言語優先の人間適合インターフェースを用いて訓練します。
Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.
研究の動機と目的
- 多様な3D環境で arbitrary な言語指示に従うことができるエージェントを構築する目標を動機づけ、説明する。
- 環境固有の前提を最小限に抑えた、拡張性のある言語優先の具現AIアプローチを提案する。
- 研究環境と商用ゲームの両方から画像・言語・行動の大規模なマルチモーダルデータを収集・活用する。
- 事前学習済みのビジョン-言語コンポーネントと行動潜在学習を組み合わせたエージェントアーキテクチャを開発する。
- 言語条件付けのグラウンディングと一般化を評価するため、様々な環境で評価手法を確立する。
提案手法
- 商用ゲームと研究環境を含む広範な3D環境のポートフォリオを用いてエージェントを訓練・評価する。
- 入力は画像と自然言語で、出力はキーボードとマウスの操作とする、言語優先のインターフェースを採用する。
- 事前学習モデル(SPARC、Phenaki)とスクラッチからの学習コンポーネントを組み合わせ、Transformer-XL ベースのメモリを含むエージェントを導く。
- 補助的なゴール完遂予測目的を持つ行動模倣学習を適用して、エージェントを訓練する。
- 実行時の言語条件付けを強化するために CFG(Classifier-Free Guidance)を用いる。
- 多様な環境で高品質な訓練データを作るためのマルチモーダルデータ前処理、選別、ウェイティングを活用する。
実験結果
リサーチクエスチョン
- RQ1言語条件付きの具現エージェントは、どのようにして人間と互換性のある統一的なインターフェースを用いて、広く多様な3D環境に一般化できるのか。
- RQ2多くの世界にわたる視覚と行動方針に、オープンエンドな自然言語指示を最も良くグラウンディングするデータ、アーキテクチャ、訓練目標は何か。
- RQ3事前学習済みのビジョン-言語モデルと記憶拡張アーキテクチャを組み合わせると、複雑でリアルタイムな環境での指示遵守は向上するのか。
- RQ4研究環境と商用ゲームの両方で、言語条件付けの行動を測定する評価戦略(OCR、真値タスク、人間判断)はどれほど効果的か。
- RQ5データ品質、リミックス、ウェイト付けが、多様な環境で指示追従能力を拡大する際に果たす役割は何か。
主な発見
- SIMA アプローチは、複数の多様な3D環境で自由形式の指示に従うことができる指示可能エージェントへと向けた進展を示している。
- 事前学習済みのビジョン-言語コンポーネントと記憶拡張トランスフォーマーを組み合わせたハイブリッドアーキテクチャは、言語と視覚をキーボード-マウス操作へ写像できる。
- 補助的なゴール予測目的を持つ行動模倣学習と CFG の併用は、言語条件付きポリシーの性能を高める。
- 商用ゲームでの評価は、OCR と人間のビデオ判断に支えられて、タスク完遂と指示遵守を評価する。
- データ収集には十以上の環境が使用され、本報告で形式的評価結果を支える七つの環境が含まれている。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。