QUICK REVIEW

[論文レビュー] What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom

Yan Ma, Weiyu Zhang|arXiv (Cornell University)|Feb 1, 2026

Robot Manipulation and Learning被引用数 0

ひとこと要約

この論文は vision tool-use RL における intrinsic capability の成長と tool 利用による効果を分離する MED を提案し、 intrinsic 学習が支配的で、ツール利用は主に害を減らすことに寄与する程度であり、ツールを習得すること自体には至っていないことを示す

ABSTRACT

Vision tool-use reinforcement learning (RL) can equip vision-language models with visual operators such as crop-and-zoom and achieves strong performance gains, yet it remains unclear whether these gains are driven by improvements in tool use or evolving intrinsic capabilities.We introduce MED (Measure-Explain-Diagnose), a coarse-to-fine framework that disentangles intrinsic capability changes from tool-induced effects, decomposes the tool-induced performance difference into gain and harm terms, and probes the mechanisms driving their evolution. Across checkpoint-level analyses on two VLMs with different tool priors and six benchmarks, we find that improvements are dominated by intrinsic learning, while tool-use RL mainly reduces tool-induced harm (e.g., fewer call-induced errors and weaker tool schema interference) and yields limited progress in tool-based correction of intrinsic failures. Overall, current vision tool-use RL learns to coexist safely with tools rather than master them.

研究の動機と目的

ビジョンツール使用強化学習の改善が intrinsic 能力の成長に起因するのか、それとも tool 利用ダイナミクスに起因するのかを評価する。
ツール誘導の効果を gains と harms に分離し、そのトレーニングダイナミクスを分析する。
ツール熟知度の異なる regime でツール利用の進化を支える基礎機構を診断する。

提案手法

L RL において crop-and-zoom ツールを用いて VLM を訓練し、チェックポイントごとにツールなしとツールありの性能を評価する。
tool-induced drift G(t)=Acc_w(t)−Acc_wo(t) を定義し、end-to-end drift f_w(t) を intrinsic drift f_wo(t) と tool-induced drift Δ_tool(t) に分解する。
G(t) を四つの項（Call Gain, Schema Gain, Call Harm, Schema Harm）に分解し、さらに各項を Mass, Policy, Quality の成分に因数分解する（式(8)）。
MED を用いてトレーニングダイナミクスを測定・説明・診断し、ツール利用行動とツールスキーマ相互作用への gains/harms の帰属を行う。
異なるツール前提（ツール非適応の Qwen2.5-VL とツール適応の Qwen3-VL）を用いた二つのバックボーンと六つのベンチマークを用い、チェックポイント粒度で分析する。
真偽の検証分析を sanity checks を含めて実施し、Call Gain の人間適合評価や失敗セットでの頑健性を確認する。

実験結果

リサーチクエスチョン

RQ1ツール利用 RL の gains は intrinsic 能力の向上から来るのか、それともツール誘導効果から来るのか。
RQ2異なるツール熟知度 regime において intrinsic および tool induced の成分はトレーニング中にどう進化するのか。
RQ3Mass, Policy, Quality がツール使用における gains と harms をどのように駆動し、ツールスキーマの干渉はどのように進化するのか。
RQ4 vision tool-use ポリシーは本当にツールを支配するのか、それとも安全な共存を学習しているだけなのか。

主な発見

Model	Acc_wo	Acc_schema	Gap	Acc_w
Qwen2.5-VL	48.4	42.6	-5.8	42.2
Qwen3-VL	53.0	40.0	-13.0	61.2

intrinsic drift が全体の性能向上を支配的に決定する；tool-induced drift は学習進行のごく一部しか説明せず、ツール寄与率 S_tool ≈ 0.22–0.30。
二つのバックボーンはツール漂移ダイナミクスが異なる：ツール非適応モデルはツール利用から利益を得る一方、ツール適応モデルはツールの有用性が頭打ちになるにつれて intrinsic の改善により依存する。
ツール利用による総害は訓練とともに減少する一方、総利益は停滞または低下し、ツールによるギャップ G(t) に停滞をもたらす。
Call Harm と Schema Harm はともに訓練とともに減少し、特にツールスキーマはツール適応モデルにとっては干渉が少なくなる。
ツール利用挙動は依然として保守的であり、難しい失敗へのツールベース補正の改善は限定的で、安全な共存を学習しているに留まることを示唆する。
人間に適合した Call Gain は tool-native モデル（Qwen3-VL）で高く、意味のある人間推論と一致する gains を示す一方、ツール非適応モデルにはショートカット的な挙動が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。