[論文レビュー] Position Paper: Agent AI Towards a Holistic Intelligence
このポジションペーパーは、基盤モデルを統合した凝集的な対話型エージェントへと組み込まれた身体性・多模态システムとしてエージェントAIを定義し、全体的な知性を目指すAgent Foundation Models、学習、記憶、行動、認知のフレームワークを概説する。
Recent advancements in large foundation models have remarkably enhanced our understanding of sensory information in open-world environments. In leveraging the power of foundation models, it is crucial for AI research to pivot away from excessive reductionism and toward an emphasis on systems that function as cohesive wholes. Specifically, we emphasize developing Agent AI -- an embodied system that integrates large foundation models into agent actions. The emerging field of Agent AI spans a wide range of existing embodied and agent-based multimodal interactions, including robotics, gaming, and healthcare systems, etc. In this paper, we propose a novel large action model to achieve embodied intelligent behavior, the Agent Foundation Model. On top of this idea, we discuss how agent AI exhibits remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. Furthermore, we discuss the potential of Agent AI from an interdisciplinary perspective, underscoring AI cognition and consciousness within scientific discourse. We believe that those discussions serve as a basis for future research directions and encourage broader societal engagement.
研究の動機と目的
- 還元主義的なAIから、統合された身体化されたエージェントへと移行し、それらが一体となって動作することを促進する。
- Agent Foundation Modelを、身体化された知性の中核的構成要素として導入する。
- 全体的なエージェント行動を可能にする環境知覚・学習・記憶・行動・認知の5モジュールアーキテクチャを概説する。
- Agent AIにおける訓練・記憶・行動予測・モーダル間統合の方法論的手法を議論する。
- Agent AIをAGI様の能力へと進化させる際の倫理的・社会的・学際的な配慮を強調する。
提案手法
- 身体化されたエージェントのために、言語・視覚・記憶・行動を統合するAgent Foundation Modelフレームワークを提案する。
- Agent Transformer が多模态入力を処理し、低レベルの行動・高レベルの意図・指示を予測する方法を説明する。
- エージェントのポリシー改良のための学習戦略として、強化学習(RL)、模倣学習(IL)、人間のフィードバックからのRL(RLHF)を説明する。
- 複数エージェントの協調とタスクスケジューリングのための空間的・時系列的な最適化について議論する。
- 人間のフィードバックと環境相互作用を通じたトランスフォーマーの自己改善経路を提示する。
- 多模态データと生成された訓練データを活用したデータ駆動型の自己改善アプローチを概説する。

実験結果
リサーチクエスチョン
- RQ1エージェントに根ざした多模态基盤モデルを、さまざまな領域で細かな行動と高レベルの意図の両方を予測できるように訓練するにはどうすればよいか?
- RQ2身体化したエージェントにおいて、全体的な知性を達成するための統合的な認知・記憶・知覚・行動を可能にするアーキテクチャと訓練戦略は何か?
- RQ3Agent AIをAGI様の能力へと追求する際に生じる倫理的・社会的配慮は何か?
- RQ4ロボティクス、ゲーム、医療分野での堅牢性と一般化を改善するために、エージェント–環境–人間の相互作用をどのように最適化できるか?
主な発見
- 本論文は、Agent AIの結束力のある5モジュールアーキテクチャを提示する:環境と知覚、学習、記憶、行動、認知。
- Agent Foundation ModelとAgent Transformerを、過去の相互作用を文脈として用いて低レベルの行動・エージェントタイプ・高レベルの指示を予測する多模态エンコーダとして紹介する。
- RL、IL、RLHFが、ロボティクス、ゲーム、医療を含む多様な環境でエージェントを訓練するための重要な学習パラダイムとして提示される。
- 空間的・時間的な観点での最適化が論じられ、複数エージェントの協調、タスクスケジューリング、共通規約の発見を含み、人間や他のエージェントとの協調を改善する。
- 継続的な環境相互作用と人間のフィードバックを通じたトランスフォーマーの自己改善経路が提案され、より良いポリシーと行動を段階的に可能にする。
- 分類フレームワークは、現存する研究を整理するため、物理的・仮想環境を横断する操作と意図的行動、さらに非具現化の多模态エージェントを含めてAgent AIを分類し、将来の方向性を定義する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。