[论文解读] Language Models Meet World Models: Embodied Experiences Enhance Language Models
使用来自世界模型(VirtualHome)的具体现身体验通过 EWC-LoRA 框架对语言模型进行微调,在保持语言能力的同时提升具体现身推理任务的表现。
While large language models (LMs) have shown remarkable capabilities across numerous tasks, they often struggle with simple reasoning and planning in physical environments, such as understanding object permanence or planning household activities. The limitation arises from the fact that LMs are trained only on written text and miss essential embodied knowledge and skills. In this paper, we propose a new paradigm of enhancing LMs by finetuning them with world models, to gain diverse embodied knowledge while retaining their general language capabilities. Our approach deploys an embodied agent in a world model, particularly a simulator of the physical world (VirtualHome), and acquires a diverse set of embodied experiences through both goal-oriented planning and random exploration. These experiences are then used to finetune LMs to teach diverse abilities of reasoning and acting in the physical world, e.g., planning and completing goals, object permanence and tracking, etc. Moreover, it is desirable to preserve the generality of LMs during finetuning, which facilitates generalizing the embodied knowledge across tasks rather than being tied to specific simulations. We thus further introduce the classical (EWC) for selective weight updates, combined with low-rank adapters (LoRA) for training efficiency. Extensive experiments show our approach substantially improves base LMs on 18 downstream tasks by 64.28% on average. In particular, the small LMs (1.3B, 6B, and 13B) enhanced by our approach match or even outperform much larger LMs (e.g., ChatGPT).
研究动机与目标
- 激发将多样化的具体现身知识嵌入预训练语言模型,以提升在物理环境中的推理与规划能力。
- 提出一种训练范式(E2WM),通过面向目标的规划和随机探索从世界模型中收集具体现身体验。
- 在微调过程中通过使用弹性权重集中(EWC)与低秩适配(LoRA)实现高效更新,同时保持语言模型的通用性。
提出的方法
- 通过两条路径从家庭世界模型(VirtualHome)收集具体现身体验:使用蒙特卡洛树搜索的目标导向规划,以及带对象跟踪的随机探索。
- 将体验格式化为微调任务,如计划生成、活动识别、计数和对象路径跟踪。
- 在这些任务上对语言模型进行有监督目标的微调,使用 EWC 正则化以保留预训练知识,并使用 LoRA 进行高效的参数更新(EWC-LoRA)。
- 用 Fisher 信息对正则化进行约束,以保护重要参数,重新表述以在 LoRA 参数上运行以降低内存使用。
- 在已见和未见的具体现身任务以及语言建模基准(Pile)上进行评估,以确保泛化能力保持稳定。
实验结果
研究问题
- RQ1通过对具体现身体验的世界模型进行微调,预训练语言模型是否能够提升具体现身推理和规划能力?
- RQ2将 EWC 与 LoRA 结合(EWC-LoRA)在保持语言建模能力的同时,是否能够实现对具体现身任务的有效知识迁移?
- RQ3带有具体现身体验训练的模型是否对未见任务具有泛化性,并在具体现身基准上优于基线和 ChatGPT?
- RQ4应用 EWC-LoRA 时是否能将对预训练数据的性能下降降到最低?
主要发现
| 模型 | 基础困惑度 | 我们的困惑度 |
|---|---|---|
| GPT-Neo | 4.120 | 4.193 |
| GPT-J | 3.443 | 3.537 |
| OPT-13B | 4.077 | 4.358 |
| LLaMA-13B | 3.036 | 3.069 |
- 对具体现身体验进行微调的小型语言模型(1.3B、6B、13B)在11个下游任务上优于基线,并且在若干任务上超越 ChatGPT。
- 在不同模型(GPT-Neo、GPT-J、OPT-13B、LLaMA-13B)中,该方法在规划、识别、计数和跟踪任务上带来显著提升,包括更高的 Rouge-L 和准确性分数。
- Pile 测试子集上的困惑度几乎未受影响,显示了通用语言建模能力的保持(例如 GPT-Neo:4.120 基线 vs 4.193 我们的;GPT-J:3.443 基线 vs 3.537 我们的;OPT-13B:4.077 基线 vs 4.358 我们的;LLaMA-13B:3.036 基线 vs 3.069 我们的)。
- EWC-LoRA 相较于纯 EWC 或 LoRA 提供了更好的权衡,在保持强 downstream 表现的同时实现更低的困惑度。
- 消融研究表明去除训练任务会降低下游表现,证实了每个具体现身任务的价值。
- 在 bAbI 任务上,微调模型优于基础语言模型,在一些具有挑战性的项上甚至超过 ChatGPT。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。