[論文レビュー] ProcTHOR: Large-Scale Embodied AI Using Procedural Generation
ProcTHOR は Embodied AI のために大規模で対話型・物理学対応の家を手続き的に生成する。10k シーンでの事前学習により、複数のベンチマークで最先端の結果を達成し、0-shot 転移も強力。
Massive datasets and high-capacity models have driven many recent advancements in computer vision and natural language understanding. This work presents a platform to enable similar success stories in Embodied AI. We propose ProcTHOR, a framework for procedural generation of Embodied AI environments. ProcTHOR enables us to sample arbitrarily large datasets of diverse, interactive, customizable, and performant virtual environments to train and evaluate embodied agents across navigation, interaction, and manipulation tasks. We demonstrate the power and potential of ProcTHOR via a sample of 10,000 generated houses and a simple neural model. Models trained using only RGB images on ProcTHOR, with no explicit mapping and no human task supervision produce state-of-the-art results across 6 embodied AI benchmarks for navigation, rearrangement, and arm manipulation, including the presently running Habitat 2022, AI2-THOR Rearrangement 2022, and RoboTHOR challenges. We also demonstrate strong 0-shot results on these benchmarks, via pre-training on ProcTHOR with no fine-tuning on the downstream benchmark, often beating previous state-of-the-art systems that access the downstream training data.
研究の動機と目的
- 大規模で多様な対話型環境を用いて Embodied AI のスケーリングを動機づける。
- 多様で物理的に妥当な床面図と資産の自動生成を可能にする。
- 設定可能な照明と材料を備えた完全に対話可能なシーンを提供し、堅牢な訓練を実現する。
- 大規模な ProcTHOR データを用いた単純な RGB ベースのモデルでも SoTA を達成できることを示す。
- Embodied AI 研究を前進させるために ProcTHOR フレームワークをオープンソース化する。
提案手法
- 部屋の仕様から完全に対話可能で物理法則を有する家を手続き的に生成する。
- 床面図を 1633 資産、108 カテゴリ、18 の Semantic Asset Groups で配置の多様性を確保。
- 材料と照明のランダム化を適用して外観の多様性と日中/夜間の変化をシミュレート。
- オブジェクトの状態と操作を有効にして、ナビゲーション、相互作用、操作タスクをサポートする。
- 単純な CNN+GRU アーキテクチャ(一部タスクには CLIP ベースの variant を使用)を用い、 AllenAct フレームワークで訓練する。
- 六つの Embodied AI ベンチマークに対してゼロショットおよびファインチューニングの性能を評価する。
実験結果
リサーチクエスチョン
- RQ1ProcTHOR の大規模な手続き的環境は Embodied AI エージェントの一般化を改善できるか。
- RQ2ProcTHOR で訓練された RGB のみのモデルは、ゼロショットおよびファインチューニング後に下流ベンチマークへ競争力を持って転移できるか。
- RQ3訓練用家の数を増やすとナビゲーションと操作タスクの性能はどうなるか。
- RQ4手続き的多様性(床面図、資産、材料、照明)がベンチマークスコアに与える影響はどの程度か。
主な発見
- ProcTHOR はナビゲーションとマニピュレーションの六つの Embodied AI ベンチマークで最先端の結果を達成。
- ゼロショット転移において、ProcTHOR のみで訓練されたモデルが複数のベンチマークで従来の SoTA を上回る。
- 下流のファインチューニングでは、ProcTHOR ベースのモデルが Habitat 2022 ObjectNav、AI2-THOR Rearrangement、RoboTHOR ObjectNav のトップリーダーボード位置に到達。
- ArchitecTHOR と ProcTHOR は多様なタスクで強力な 0-shot およびファインチューニング性能を示す。
- アブレーションは、10 から 100 から 1K から 10K のシーンへとスケールさせる利点を示す。
- ProcTHOR は大規模なデータセットと、数億回分の訓練ステップに適した高速レンダリングを実現する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。