Skip to main content
QUICK REVIEW

[论文解读] Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Yuexiang Zhai, Hao Bai|arXiv (Cornell University)|May 16, 2024
Multimodal Machine Learning Applications被引用 8
一句话总结

该论文提出一个框架,通过强化学习微调大规模视觉语言模型(VLM),让模型生成连贯推理链(chain-of-thought)和基于文本的行动,再解析为可执行的环境行动用于 RL 训练。

ABSTRACT

Large vision-language models (VLMs) fine-tuned on specialized visual instruction-following data have exhibited impressive language reasoning capabilities across various scenarios. However, this fine-tuning paradigm may not be able to efficiently learn optimal decision-making agents in multi-step goal-directed tasks from interactive environments. To address this challenge, we propose an algorithmic framework that fine-tunes VLMs with reinforcement learning (RL). Specifically, our framework provides a task description and then prompts the VLM to generate chain-of-thought (CoT) reasoning, enabling the VLM to efficiently explore intermediate reasoning steps that lead to the final text-based action. Next, the open-ended text output is parsed into an executable action to interact with the environment to obtain goal-directed task rewards. Finally, our framework uses these task rewards to fine-tune the entire VLM with RL. Empirically, we demonstrate that our proposed framework enhances the decision-making capabilities of VLM agents across various tasks, enabling 7b models to outperform commercial models such as GPT4-V or Gemini. Furthermore, we find that CoT reasoning is a crucial component for performance improvement, as removing the CoT reasoning results in a significant decrease in the overall performance of our method.

研究动机与目标

  • 激励具备学习能力的基于 VLM 的代理,在交互环境中需要视觉-语言推理的多步骤、目标导向任务中发挥作用。
  • 引入基于 RL 的微调框架,利用连锁思维(CoT)推理生成可执行的文本输出。
  • 实现对 7B 规模参数级别的 VLM 的端到端训练,在特定决策基准上超越某些商用模型。
  • 展示 CoT 推理在跨多任务与领域的 RL 驱动决策中的重要性。

提出的方法

  • 将 VLM 策略定义为从(图像观测、输入提示)映射到包含 CoT 推理和提议行动的开放式文本输出。
  • 使用后处理函数从文本输出中提取合法环境行动;若提取失败,则在可接受的行动集合上进行随机探索。
  • 通过将缩放后的 CoT 标记概率与行动标记概率相结合并由一个因子 lambda 控制,计算所选行动的正则化对数概率。
  • 使用环境奖励和所计算的行动概率,通过端到端的 PPO 对 VLM 进行训练以更新模型参数。
  • 设计领域特定的提示以诱发 CoT 推理和格式化输出,并引入缩放机制以缓解 CoT 标记在行动概率估计中的支配地位。
  • 在两个领域(gym_cards 和 ALFWorld)上进行评估,使用 7B 主干的 VLM(Llava-7B 系列),并与 GPT4-V、Gemini 以及一个有监督微调的基线进行比较。
(a) NumberLine
(a) NumberLine

实验结果

研究问题

  • RQ1对一个大规模 VLM 进行 RL 微调,是否能在需要环境交互的多步骤视觉-语言任务中改善决策?
  • RQ2连锁思维推理在 VLM 代理的 RL 微调成功中有多重要?
  • RQ3端到端的 RL 微调 VLM 是否在视觉-语言决策任务中优于冻结模型提示或普通 RL 基线?
  • RQ4哪些有效方法可以从 VLM 的开放文本输出中提取可执行的环境行动?
  • RQ5CoT 相对于行动提取在跨领域的性能与稳定性如何随规模变化?

主要发现

  • RL 微调框架在细粒度视觉-语言 gym 领域(gym_cards)和具身 AI 领域(ALFWorld)的 VLM 决策能力上均有提升。
  • 在评估任务上,具有 RL 微调的 7B 规模 VLM 能超越商业模型如 GPT4-V 与 Gemini。
  • 连锁思维推理对性能至关重要;移除 CoT 推理会导致跨域整体性能显著下降。
  • CoT 标记缩放因子 lambda(通常在 0.2 到 0.5 之间)对平衡 CoT 与行动标记的贡献并显著影响性能很重要。
  • 与基于 CNN 的 RL 或冻结 VLM 的提示基线相比,端到端的 RL 微调方法在所测试任务上获得更高的任务成功率。
(b) EZPoints
(b) EZPoints

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。