[论文解读] Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning
该论文提出一个框架,通过强化学习微调大规模视觉语言模型(VLM),让模型生成连贯推理链(chain-of-thought)和基于文本的行动,再解析为可执行的环境行动用于 RL 训练。
Large vision-language models (VLMs) fine-tuned on specialized visual instruction-following data have exhibited impressive language reasoning capabilities across various scenarios. However, this fine-tuning paradigm may not be able to efficiently learn optimal decision-making agents in multi-step goal-directed tasks from interactive environments. To address this challenge, we propose an algorithmic framework that fine-tunes VLMs with reinforcement learning (RL). Specifically, our framework provides a task description and then prompts the VLM to generate chain-of-thought (CoT) reasoning, enabling the VLM to efficiently explore intermediate reasoning steps that lead to the final text-based action. Next, the open-ended text output is parsed into an executable action to interact with the environment to obtain goal-directed task rewards. Finally, our framework uses these task rewards to fine-tune the entire VLM with RL. Empirically, we demonstrate that our proposed framework enhances the decision-making capabilities of VLM agents across various tasks, enabling 7b models to outperform commercial models such as GPT4-V or Gemini. Furthermore, we find that CoT reasoning is a crucial component for performance improvement, as removing the CoT reasoning results in a significant decrease in the overall performance of our method.
研究动机与目标
- 激励具备学习能力的基于 VLM 的代理,在交互环境中需要视觉-语言推理的多步骤、目标导向任务中发挥作用。
- 引入基于 RL 的微调框架,利用连锁思维(CoT)推理生成可执行的文本输出。
- 实现对 7B 规模参数级别的 VLM 的端到端训练,在特定决策基准上超越某些商用模型。
- 展示 CoT 推理在跨多任务与领域的 RL 驱动决策中的重要性。
提出的方法
- 将 VLM 策略定义为从(图像观测、输入提示)映射到包含 CoT 推理和提议行动的开放式文本输出。
- 使用后处理函数从文本输出中提取合法环境行动;若提取失败,则在可接受的行动集合上进行随机探索。
- 通过将缩放后的 CoT 标记概率与行动标记概率相结合并由一个因子 lambda 控制,计算所选行动的正则化对数概率。
- 使用环境奖励和所计算的行动概率,通过端到端的 PPO 对 VLM 进行训练以更新模型参数。
- 设计领域特定的提示以诱发 CoT 推理和格式化输出,并引入缩放机制以缓解 CoT 标记在行动概率估计中的支配地位。
- 在两个领域(gym_cards 和 ALFWorld)上进行评估,使用 7B 主干的 VLM(Llava-7B 系列),并与 GPT4-V、Gemini 以及一个有监督微调的基线进行比较。

实验结果
研究问题
- RQ1对一个大规模 VLM 进行 RL 微调,是否能在需要环境交互的多步骤视觉-语言任务中改善决策?
- RQ2连锁思维推理在 VLM 代理的 RL 微调成功中有多重要?
- RQ3端到端的 RL 微调 VLM 是否在视觉-语言决策任务中优于冻结模型提示或普通 RL 基线?
- RQ4哪些有效方法可以从 VLM 的开放文本输出中提取可执行的环境行动?
- RQ5CoT 相对于行动提取在跨领域的性能与稳定性如何随规模变化?
主要发现
- RL 微调框架在细粒度视觉-语言 gym 领域(gym_cards)和具身 AI 领域(ALFWorld)的 VLM 决策能力上均有提升。
- 在评估任务上,具有 RL 微调的 7B 规模 VLM 能超越商业模型如 GPT4-V 与 Gemini。
- 连锁思维推理对性能至关重要;移除 CoT 推理会导致跨域整体性能显著下降。
- CoT 标记缩放因子 lambda(通常在 0.2 到 0.5 之间)对平衡 CoT 与行动标记的贡献并显著影响性能很重要。
- 与基于 CNN 的 RL 或冻结 VLM 的提示基线相比,端到端的 RL 微调方法在所测试任务上获得更高的任务成功率。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。