QUICK REVIEW

[论文解读] Scaling Instructable Agents Across Many Simulated Worlds

SIMA team, Maria Abi Raad|arXiv (Cornell University)|Mar 13, 2024

Robotic Path Planning Algorithms被引用 9

一句话总结

SIMA 训练语言引导的具身代理，以在多样化的 3D 环境中遵循自由形式的指令，使用人类数据与语言优先、对人类兼容的界面。

ABSTRACT

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as open-ended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

研究动机与目标

激发并描述在多样化的 3D 环境中构建能够遵循任意语言指令的代理的目标。
提出一个可扩展的、语言为先的具身人工智能方法，在对环境特定假设最小化的前提下。
从研究环境和商业游戏中收集并利用大规模多模态数据（图像、语言、行动）。
开发一个代理架构，将预训练的视觉-语言组件与通过行为克隆的强化学习结合起来。
在多样化环境中建立评估方法，以评估语言条件下的对齐与泛化。

提出的方法

使用包括商业游戏和研究环境在内的广泛 3D 环境组合来训练和评估代理。
采用语言优先的界面，输入为图像和自然语言指令，输出为键鼠操作。
将预训练模型（SPARC、Phenaki）与从头训练的组件结合，使用基于 Transformer-XL 的记忆，所有这些共同引导策略网络。
应用带有辅助目标完成预测目标的行为克隆来训练代理。
在执行过程中采用无分类器引导（Classifier-Free Guidance）以增强语言条件。
利用多模态数据的预处理、筛选和加权，在各环境中挑选高质量的训练数据。

实验结果

研究问题

RQ1在统一的人类兼容界面下，语言条件的具身代理如何在广泛且多样的 3D 环境中实现泛化？
RQ2在众多世界中，哪些数据、架构和训练目标最能将开放式自然语言指令与视觉-行动策略进行对齐？
RQ3将预训练的视觉-语言模型与记忆增强架构结合，是否能够在复杂的实时环境中提升指令执行？
RQ4在研究环境和商业游戏中，评估策略（OCR、真实任务、人工评估）在衡量语言条件行为方面的有效性如何？
RQ5数据质量、重新混合和加权在扩展跨样环境的指令执行能力方面起到的作用是什么？

主要发现

SIMA 方法在朝着能够在多样化的多个 3D 环境中遵循自由形式指令的可指令代理迈出进展。
将预训练的视觉-语言组件与记忆增强的 Transformer 架构结合的混合架构，能够将语言与视觉映射到键盘-鼠标动作。
带辅助目标预测对象的行为克隆加上 CFG 能提升语言条件策略的性能。
在商业游戏中的评估得到 OCR 与人类视频判断的支持，用于评估任务完成度和指令遵循情况。
用于数据收集的环境超过十个，其中七个环境为本报告提供正式评估结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。