QUICK REVIEW

[论文解读] ALFWorld: Aligning Text and Embodied Environments for Interactive Learning

Mohit Shridhar, Xingdi Yuan|arXiv (Cornell University)|Oct 8, 2020

Multimodal Machine Learning Applications参考文献 57被引用 27

一句话总结

ALFWorld 引入了一个并行的、交互式的基于文本的和具身化模拟环境，使智能体能够在 TextWorld 中预训练抽象的、基于语言的策略，之后将其迁移到 ALFRED 中类似真实世界具身任务的环境中。通过在抽象文本世界中进行模仿学习训练的 BUTLER 智能体，在未见过的具身环境中实现了零样本泛化，训练速度比仅使用视觉的训练快 7 倍，并且性能更优。

ABSTRACT

Given a simple request like Put a washed apple in the kitchen fridge, humans can reason in purely abstract terms by imagining action sequences and scoring their likelihood of success, prototypicality, and efficiency, all without moving a muscle. Once we see the kitchen in question, we can update our abstract plans to fit the scene. Embodied agents require the same abilities, but existing work does not yet provide the infrastructure necessary for both reasoning abstractly and executing concretely. We address this limitation by introducing ALFWorld, a simulator that enables agents to learn abstract, text based policies in TextWorld (Côté et al., 2018) and then execute goals from the ALFRED benchmark (Shridhar et al., 2020) in a rich visual environment. ALFWorld enables the creation of a new BUTLER agent whose abstract knowledge, learned in TextWorld, corresponds directly to concrete, visually grounded actions. In turn, as we demonstrate empirically, this fosters better agent generalization than training only in the visually grounded environment. BUTLER's simple, modular design factors the problem to allow researchers to focus on models for improving every piece of the pipeline (language understanding, planning, navigation, and visual scene understanding).

研究动机与目标

为解决具身智能体在新环境间泛化能力不足的问题，通过在抽象的、基于语言的环境中进行预训练来实现。
构建一个并行且对齐的模拟框架，将基于文本的交互与具身的、视觉-物理环境相连接。
证明在文本空间中的抽象推理能够提升具身任务执行中的泛化能力和效率。
设计一种模块化智能体架构（BUTLER），将语言理解、规划与执行解耦，以实现各模块的独立优化。
验证在基于文本的环境中进行预训练，相比仅在视觉-具身环境中训练，能够获得更优的性能和更快的收敛速度。

提出的方法

ALFWorld 将 TextWorld 和 ALFRED 整合为一个统一的模拟器，支持并行的文本与视觉模态，实现在抽象形式与具身形式下的对齐交互。
BUTLER 智能体首先在基于文本的 TextWorld 环境中，通过模仿学习学习高层级的语言策略。
在 TextWorld 中生成的高层级文本动作，通过包含导航器和视觉场景解析器的模块化流水线，映射为低层级的物理动作。
智能体使用基于模板的状态估计器来追踪文本世界中物体的位置与状态，以支持结构化推理。
该系统支持零样本迁移：在文本环境中学习的策略可直接应用于未见过的具身任务，无需进一步微调。
该框架支持端到端训练，未来可引入学习的动力学模型，替代符号化状态描述。

实验结果

研究问题

RQ1在抽象的、基于文本的环境中进行预训练，是否能相比直接在视觉环境中训练，提升对未见过的具身任务的泛化能力？
RQ2基于语言的策略在性能和训练效率方面，如何迁移到具身的、视觉-物理环境中？
RQ3一种将语言理解、规划与执行分离的模块化智能体架构，在多大程度上能提升泛化能力与可维护性？
RQ4在符号化、语言丰富的空间中进行推理，是否能为视觉-语言对齐提供比基于视觉的状态表示更优的先验知识？
RQ5基于文本的策略引擎是否可用于生成可迁移的高层级子目标，以供新环境中的低层级机器人控制器使用？

主要发现

在 TextWorld 中预训练的 BUTLER 智能体，成功实现了对 ALFRED 中未见过的具身任务的零样本泛化，证明了抽象策略迁移的可行性。
在基于文本的环境中训练的速度比从零开始在视觉-具身环境中训练快 7 倍，且最终性能更优。
在 TextWorld 中训练的游戏数量较少的智能体容易过拟合，在评估中表现不佳；而训练游戏数量更多的智能体在已见和未见场景中均表现出更好的泛化能力。
BUTLER 的模块化设计允许独立升级导航器或状态估计器等组件，为未来端到端学习提供了可能。
在抽象文本世界中进行预训练，其泛化能力优于仅从专家演示语料或从零开始在视觉世界中训练的策略。
文本世界与具身世界之间的对齐，使智能体能够学习到语义先验（如物体功能、前提条件），从而支持在新环境中的稳健推理。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。