[論文レビュー] An Embodied Generalist Agent in 3D World
LEO は、キャプショニング、QA、ナビゲーション、操作を横断する3D環境で、認識・定位・推論・計画・行動を行う、2段階で訓練された具現化された多モーダル・多タスクの汎用エージェント(3D視覚言語整合と3D視覚言語行動命令チューニング)です。
Leveraging massive knowledge from large language models (LLMs), recent machine learning models show notable successes in general-purpose task solving in diverse domains such as computer vision and robotics. However, several significant challenges remain: (i) most of these models rely on 2D images yet exhibit a limited capacity for 3D input; (ii) these models rarely explore the tasks inherently defined in 3D world, e.g., 3D grounding, embodied reasoning and acting. We argue these limitations significantly hinder current models from performing real-world tasks and approaching general intelligence. To this end, we introduce LEO, an embodied multi-modal generalist agent that excels in perceiving, grounding, reasoning, planning, and acting in the 3D world. LEO is trained with a unified task interface, model architecture, and objective in two stages: (i) 3D vision-language (VL) alignment and (ii) 3D vision-language-action (VLA) instruction tuning. We collect large-scale datasets comprising diverse object-level and scene-level tasks, which require considerable understanding of and interaction with the 3D world. Moreover, we meticulously design an LLM-assisted pipeline to produce high-quality 3D VL data. Through extensive experiments, we demonstrate LEO's remarkable proficiency across a wide spectrum of tasks, including 3D captioning, question answering, embodied reasoning, navigation and manipulation. Our ablative studies and scaling analyses further provide valuable insights for developing future embodied generalist agents. Code and data are available on project page.
研究の動機と目的
- 2Dドメインを超える汎用エージェントの3D理解のギャップを埋める。
- 3D環境で知覚・定位・推論・計画・行動を統合的に行えるアーキテクチャを開発する。
- シーングラフとオブジェクト中心のプロンプトを含む大規模な多模態3Dデータセットを作成する。
- 3D視覚言語タスクと具現化ロボティクスのタスクで最先端の性能を示す。
- データとモデルのスケーリング効果を分析し、今後の具現化汎用エージェントを導く。
提案手法
- すべてのタスクを自動回帰的なシーケンス予測として統一トークン列を用いて定式化する(2D画像トークン、オブジェクト中心の3Dトークン、テキストトークンを結合)。
- 事前学習済みのLLM(Vicuna-7B)をLoRA微調整して、多模态入力を地固めし、テキストとアクショントークンを生成する。
- 2D画像をOpenCLIPベースのエンコードで、3DオブジェクトをPointNet+++空間変換器で関係的3D推論を用いてトークン化する。
- 2段階で学習する:3Dビジョン-言語整合(LEO-align)と3Dビジョン-言語-アクション命令チューニング(LEO-instruct)。
- 連続的なアクションを予約トークンへ離散化して、2Dナビゲーションと操作アクションを統一する。
- シーングラフプロンプトとオブジェクト中心の思考連鎖(O-CoT)データ生成を通じて大規模な3D VLデータをキュレーションし、精練手順を適用する。
- 3Dキャプショニング、3D QA、具現化推論、具現化ナビゲーション、ロボット操作を評価する;アブレーションとスケーリング分析を実施する。
実験結果
リサーチクエスチョン
- RQ13D世界で知覚・定位・推論・計画・行動を可能にする統一アーキテクチャとは何か。
- RQ23D視覚言語-行動タスクの「整列-命令付与」戦略の有効性はどうか。
- RQ3データとモデルのスケーリング法則が3D具現化汎用エージェントの性能にどう影響するか。
- RQ4オブジェクト中心の3D定位はLLMと接続した場合の定位・計画を改善するか。
- RQ5命令チューニングとデータ拡張により、未知の3Dシーンやタスクへモデルは一般化できるか。
主な発見
- LEOは、ほとんどの3D VLキャプショニングおよびQAタスクで、タスク固有および汎用ベースラインと比較して最先端の性能を達成している。
- 統一モデルによる命令チューニングは、多様な3Dドメインにおいて従来の多くのタスク特化モデルを上回る。
- 3D視覚-言語整合の事前学習はVLA命令チューニングの性能を大幅に向上させる。
- 学習データを拡張すると性能が意味のある程度回復を示し、LLMや汎用エージェントで観察されるスケーリング法則と一致する。
- LEOは、3Dシーンでの現実的な対話と計画を地に足のついた形で実現し、3Dシーンにおける一貫した相互作用と具体的な行動の地盤化を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。