QUICK REVIEW

[论文解读] PaLM-E: An Embodied Multimodal Language Model

Danny Driess, Fei Xia|arXiv (Cornell University)|Mar 6, 2023

Multimodal Machine Learning Applications被引用 349

一句话总结

PaLM-E 将连续观测（图像、状态估计等）整合到一个单一的解码器式大型语言模型中，用以执行具身推理、视觉-语言任务和传统语言任务，展示在机器人与视觉-语言领域的迁移，并在无需针对特定任务的微调的情况下达到最先进的 OK-VQA 性能。

ABSTRACT

Large language models excel at a wide range of complex tasks. However, enabling general inference in the real world, e.g., for robotics problems, raises the challenge of grounding. We propose embodied language models to directly incorporate real-world continuous sensor modalities into language models and thereby establish the link between words and percepts. Input to our embodied language model are multi-modal sentences that interleave visual, continuous state estimation, and textual input encodings. We train these encodings end-to-end, in conjunction with a pre-trained large language model, for multiple embodied tasks including sequential robotic manipulation planning, visual question answering, and captioning. Our evaluations show that PaLM-E, a single large embodied multimodal model, can address a variety of embodied reasoning tasks, from a variety of observation modalities, on multiple embodiments, and further, exhibits positive transfer: the model benefits from diverse joint training across internet-scale language, vision, and visual-language domains. Our largest model, PaLM-E-562B with 562B parameters, in addition to being trained on robotics tasks, is a visual-language generalist with state-of-the-art performance on OK-VQA, and retains generalist language capabilities with increasing scale.

研究动机与目标

将语言模型扎根于现实世界的连续传感器模态，以实现具身推理。
创建一个单一的多模态模型，处理机器人规划、视觉问答和字幕生成。
展示多样化视觉-语言数据向具身任务和跨机器人体的迁移。
表明扩大模型规模和多任务训练能提升数据效率和泛化。

提出的方法

将连续观测（图像、状态估计）作为多模态令牌注入到预训练的解码器式LLM中，形成多模态句子。
将每种模态的编码器端到端训练与LLM配合，以生成可解读为计划或回答的文本。
使用面向对象的表示（OSRT，真实物体掩码）将物体标记为多嵌入，并在文本中实现对象引用。
评估不同输入表示（状态向量、ViT变体、OSRT）和训练模式（冻结与微调LLM、多任务协同训练）。
将 PaLM-E 的输出连接到控制环中的低级策略，将 PaLM-E 视为序列化低级技能的高级规划者。

实验结果

研究问题

RQ1一个以连续传感器模态为基础的单一多模态语言模型，是否能够同时执行具身推理和标准的视觉-语言任务？
RQ2多任务、跨域训练是否提高数据效率并实现跨机器人嵌入与任务的迁移？
RQ3不同模态编码（状态向量、ViT变体、OSRT）如何影响具身规划和VQA的性能？
RQ4冻结与微调LLM以及以对象为中心的表示对泛化和数据效率的影响？
RQ5将 PaLM-E 扩展到大参数量是否能在保留通用能力的同时实现具身规划和零样态多模态推理？

主要发现

PaLM-E 在具身规划、VQA和字幕生成方面表现强劲，并实现零样本多模态链式推理。
在机器人和通用视觉-语言数据混合上的协同训练，相较于仅使用领域内数据，即使具身数据有限，也能提升性能。
基于OSRT的3D感知对象表示在所测试的编码器中，在TAMP环境下提供了最佳的规划性能。
562B参数的PaLM-E在无需任务特定微调的情况下达到OK-VQA的最先进结果，并在多任务和多体机能之间表现出迁移。
在某些设置中冻结LLM、仅训练编码器是可行的，暗示通过模态定向编码器实现的软提示效应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。