[论文解读] What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom
本文提出 MED,以在视觉工具使用强化学习中,将内在能力提升与工具引发效应区分开来,结果显示内在学习占主导,工具使用主要减少损害而非成为工具的掌握者。
Vision tool-use reinforcement learning (RL) can equip vision-language models with visual operators such as crop-and-zoom and achieves strong performance gains, yet it remains unclear whether these gains are driven by improvements in tool use or evolving intrinsic capabilities.We introduce MED (Measure-Explain-Diagnose), a coarse-to-fine framework that disentangles intrinsic capability changes from tool-induced effects, decomposes the tool-induced performance difference into gain and harm terms, and probes the mechanisms driving their evolution. Across checkpoint-level analyses on two VLMs with different tool priors and six benchmarks, we find that improvements are dominated by intrinsic learning, while tool-use RL mainly reduces tool-induced harm (e.g., fewer call-induced errors and weaker tool schema interference) and yields limited progress in tool-based correction of intrinsic failures. Overall, current vision tool-use RL learns to coexist safely with tools rather than master them.
研究动机与目标
- 评估视觉工具使用强化学习的改进,是来自内在能力增长还是工具使用动态。
- 将工具引发的效应分解为增益和损害,并分析其训练动态。
- 诊断在不同工具熟悉度阶段驱动工具使用演化的潜在机制。
提出的方法
- 在强化学习中使用裁剪与缩放工具训练视觉语言模型,并在每个检查点评估无工具与有工具的性能。
- 定义工具引发漂移 G(t)=Acc_w(t)−Acc_wo(t),并将端到端漂移 f_w(t) 分解为内在漂移 f_wo(t) 和工具引发漂移 Δ_tool(t)。
- 将 G(t) 分解为四项(Call Gain、Schema Gain、Call Harm、Schema Harm),并进一步将每一项分解为 Mass、Policy、Quality 三个分量(式(8))。
- 测量、解释并诊断训练动态(MED),以将增益/损害归因于工具使用行为与工具模式交互。
- 使用两种不同工具先验的骨干网络(tool-naive Qwen2.5-VL 与 tool-native Qwen3-VL)与六个基准,在检查点粒度分析。
- 基于人类对齐的评估等健全性检查进行真实世界分析,并对失败集进行鲁棒性检查。
实验结果
研究问题
- RQ1工具使用强化学习的增益在多大程度上来自于内在能力提升,而非工具引发效应?
- RQ2在不同工具熟悉度阶段,内在与工具引发分量如何随训练演化?
- RQ3驱动增益和损害的机制(Mass、Policy、Quality)以及工具模式干扰的演变如何?
- RQ4视觉工具使用策略是否真正在掌握工具,还是仅与之安全共存?
主要发现
- 内在漂移支配整体性能提升;工具引发漂移仅占少数学习进展(工具贡献比 S_tool ≈ 0.22–0.30)。
- 两种骨干网络呈现不同的工具漂移动力学:工具新手模型从使用工具中获益;工具原生模型在工具效用趋于平稳时更多依赖内在改进。
- 在训练过程中,工具使用带来的总体伤害下降,而总增益停滞或下降,导致工具引发差距 G(t) 出现平台期。
- Call Harm 与 Schema Harm 均随训练下降,且工具模式干扰减少,尤其对工具原生模型更明显。
- 工具使用行为保持保守:在难以修正的故障上对基于工具的纠错改进有限,表示学习到的是安全共存而非真正掌握工具。
- 与人类对齐的 Call Gain 对工具原生模型(Qwen3-VL)较高,说明可解释的增益与人类推理一致;工具新手模型呈现某些捷径式行为。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。