[论文解读] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
VisGym 提供 17 个长时 horizon、可视交互环境,用于诊断和训练跨域、多步骤的视觉语言模型,具备可控历史、反馈与行动表示。
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.
研究动机与目标
- 推动对跨域、可视交互决策过程的系统性、领域无关分析。
- 提供一个统一、可扩展的 gymnasium,包含长时任务和求解器驱动的演示,供 VLMs 使用。
- 在输入表示、反馈、历史和目标可见性方面开展受控实验,以诊断模型失败点与瓶颈。
提出的方法
- 引入 17 个具有不同领域、可观测性与动力学的可视交互环境。
- 在 Gymnasium 上扩展函数条件化的行动空间与针对零样本回传的函数指令。
- 提供文本反馈以支撑行动的落地并实现更丰富的监督。
- 实现启发式多步求解器以生成求解器演示用于监督微调。
- 模块化任务定义,便于添加新任务、变更行动空间并生成视觉和文本监督。
- 通过求解器演示进行评估和微调,以研究跨域泛化与行为。
实验结果
研究问题
- RQ1长期上下文历史如何影响跨任务的多模态代理性能?
- RQ2表示形式模态(视觉 vs ASCII/文本)对落地与规划有何影响?
- RQ3移除基于文本的反馈对从视觉转换的学习与决策有何影响?
- RQ4在视觉交互任务中,对 VLM 有益或有害的显式目标信息何时出现?
- RQ5使用求解器演示进行监督微调如何影响跨任务泛化与状态表示学习?
主要发现
- 即使是强大的前沿模型,在 VisGym 上也存在挑战,最佳模型在 Easy 任务达到 46.61%,在 Hard 任务达到 26.00%。
- 长上下文在不受限制时可能降低性能,历史越多呈现出倒U 形关系。
- 符号化(ASCII)表示可以显著提升部分模型,表明感知/语义 grounding 的瓶颈。
- 移除基于文本的反馈会持续降低表现,显示对文本线索的依赖用于 grounding。
- 提供最终目标观测在多数任务上有帮助,但对某些模型可能因感知错误而事倍功半。
- 使用求解器演示进行监督微调可带来显著提升并提升泛化性,尤其在较新的基础模型上;提升来自于从有信息的演示中学习,而非仅仅数量增多。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。