QUICK REVIEW

[论文解读] Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning

Yuexiang Zhai, Hao Bai|arXiv (Cornell University)|May 16, 2024

Multimodal Machine Learning Applications被引用 8

一句话总结

该论文提出一个框架，通过强化学习微调大规模视觉语言模型（VLM），让模型生成连贯推理链（chain-of-thought）和基于文本的行动，再解析为可执行的环境行动用于 RL 训练。

ABSTRACT

Large vision-language models (VLMs) fine-tuned on specialized visual instruction-following data have exhibited impressive language reasoning capabilities across various scenarios. However, this fine-tuning paradigm may not be able to efficiently learn optimal decision-making agents in multi-step goal-directed tasks from interactive environments. To address this challenge, we propose an algorithmic framework that fine-tunes VLMs with reinforcement learning (RL). Specifically, our framework provides a task description and then prompts the VLM to generate chain-of-thought (CoT) reasoning, enabling the VLM to efficiently explore intermediate reasoning steps that lead to the final text-based action. Next, the open-ended text output is parsed into an executable action to interact with the environment to obtain goal-directed task rewards. Finally, our framework uses these task rewards to fine-tune the entire VLM with RL. Empirically, we demonstrate that our proposed framework enhances the decision-making capabilities of VLM agents across various tasks, enabling 7b models to outperform commercial models such as GPT4-V or Gemini. Furthermore, we find that CoT reasoning is a crucial component for performance improvement, as removing the CoT reasoning results in a significant decrease in the overall performance of our method.

研究动机与目标

激励具备学习能力的基于 VLM 的代理，在交互环境中需要视觉-语言推理的多步骤、目标导向任务中发挥作用。
引入基于 RL 的微调框架，利用连锁思维（CoT）推理生成可执行的文本输出。
实现对 7B 规模参数级别的 VLM 的端到端训练，在特定决策基准上超越某些商用模型。
展示 CoT 推理在跨多任务与领域的 RL 驱动决策中的重要性。

提出的方法

将 VLM 策略定义为从（图像观测、输入提示）映射到包含 CoT 推理和提议行动的开放式文本输出。
使用后处理函数从文本输出中提取合法环境行动；若提取失败，则在可接受的行动集合上进行随机探索。
通过将缩放后的 CoT 标记概率与行动标记概率相结合并由一个因子 lambda 控制，计算所选行动的正则化对数概率。
使用环境奖励和所计算的行动概率，通过端到端的 PPO 对 VLM 进行训练以更新模型参数。
设计领域特定的提示以诱发 CoT 推理和格式化输出，并引入缩放机制以缓解 CoT 标记在行动概率估计中的支配地位。
在两个领域（gym_cards 和 ALFWorld）上进行评估，使用 7B 主干的 VLM（Llava-7B 系列），并与 GPT4-V、Gemini 以及一个有监督微调的基线进行比较。

实验结果

研究问题

RQ1对一个大规模 VLM 进行 RL 微调，是否能在需要环境交互的多步骤视觉-语言任务中改善决策？
RQ2连锁思维推理在 VLM 代理的 RL 微调成功中有多重要？
RQ3端到端的 RL 微调 VLM 是否在视觉-语言决策任务中优于冻结模型提示或普通 RL 基线？
RQ4哪些有效方法可以从 VLM 的开放文本输出中提取可执行的环境行动？
RQ5CoT 相对于行动提取在跨领域的性能与稳定性如何随规模变化？

主要发现

RL 微调框架在细粒度视觉-语言 gym 领域（gym_cards）和具身 AI 领域（ALFWorld）的 VLM 决策能力上均有提升。
在评估任务上，具有 RL 微调的 7B 规模 VLM 能超越商业模型如 GPT4-V 与 Gemini。
连锁思维推理对性能至关重要；移除 CoT 推理会导致跨域整体性能显著下降。
CoT 标记缩放因子 lambda（通常在 0.2 到 0.5 之间）对平衡 CoT 与行动标记的贡献并显著影响性能很重要。
与基于 CNN 的 RL 或冻结 VLM 的提示基线相比，端到端的 RL 微调方法在所测试任务上获得更高的任务成功率。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。