QUICK REVIEW

[论文解读] Large Language Models as Generalizable Policies for Embodied Tasks

Andrew Szot, Max Schwarzer|arXiv (Cornell University)|Oct 26, 2023

Multimodal Machine Learning Applications被引用 7

一句话总结

简述：LLaRP 通过输入/输出适配器和在线强化学习，将预训练的冻结大语言模型作为策略来控制具体现实体，未见任务1000个中达到42%成功率，且能泛化到同义表述和新颖行为。

ABSTRACT

We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.

研究动机与目标

研究冻结的预训练LLM是否能作为具体现任务的通用策略，支持多模态输入输出与行动决策。
评估对同义性指令变体与训练之外的新颖行为的泛化能力。
开发可扩展的基准测试（Language Rearrangement）来研究语言条件下的具体现AI泛化。
展示训练效率及相较于零-shot LLM 使用与非LLM 基线的潜在收益。

提出的方法

剥离预训练LLM的输入/输出层，建立策略学习的骨干。
引入适配器：视觉到嵌入的适配器 E_phi^V 和行动输出模块 D_omega，将 LLM 输出映射到环境动作。
将策略条件化为自然语言目标和自我中心的视觉观测，这些观测被编码并输入到LLM骨干。
在线训练，使用 PPO（DD-PPO），在LLM骨干和视觉编码器冻结的情况下，优化以目标为条件的奖励。
在 Language Rearrangement 任务中使用高级策略来选择低级技能，任务中共有70种技能可用。

实验结果

研究问题

RQ1冻结的LLM能否通过轻量级适配器改造为具体现任务的视觉-语言策略？
RQ2LLaRP 是否实现对同义表述的鲁棒性和对未见指令/任务的行为泛化？
RQ3以语言条件化策略在强化学习中的训练是否能泛化到新对象类型、场景和复杂的重排指令？
RQ4相比模仿学习或零-shot LLM 使用，基于LLM策略的RL在效率与学习曲线方面有哪些优势？
RQ5放大LLM规模如何影响具体现任务的表现与泛化？

主要发现

LLaRP 在1000个未见任务上实现42%成功率，优于基于LSTM的策略（25%）和零-shot LLM（22%）。
LLaRP 展现对同义表述的鲁棒性以及在多样化指令变体和新颖任务行为中的泛化能力。
LLaRP 相较基线具有更快的学习速度和更高的样本效率，在效率上超越了模仿学习。
更大的LLM（如 LLaMA-13B）相较于较小模型（如 LLaMA-7B）带来可量化的提升。
在Atari领域，若获得来自LLM的世界知识，LLaRP 对变换器基线也显示出非平凡的收益。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。