Skip to main content
QUICK REVIEW

[論文レビュー] What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom

Yan Ma, Weiyu Zhang|arXiv (Cornell University)|Feb 1, 2026
Robot Manipulation and Learning被引用数 0
ひとこと要約

この論文は vision tool-use RL における intrinsic capability の成長と tool 利用による効果を分離する MED を提案し、 intrinsic 学習が支配的で、ツール利用は主に害を減らすことに寄与する程度であり、ツールを習得すること自体には至っていないことを示す

ABSTRACT

Vision tool-use reinforcement learning (RL) can equip vision-language models with visual operators such as crop-and-zoom and achieves strong performance gains, yet it remains unclear whether these gains are driven by improvements in tool use or evolving intrinsic capabilities.We introduce MED (Measure-Explain-Diagnose), a coarse-to-fine framework that disentangles intrinsic capability changes from tool-induced effects, decomposes the tool-induced performance difference into gain and harm terms, and probes the mechanisms driving their evolution. Across checkpoint-level analyses on two VLMs with different tool priors and six benchmarks, we find that improvements are dominated by intrinsic learning, while tool-use RL mainly reduces tool-induced harm (e.g., fewer call-induced errors and weaker tool schema interference) and yields limited progress in tool-based correction of intrinsic failures. Overall, current vision tool-use RL learns to coexist safely with tools rather than master them.

研究の動機と目的

  • ビジョンツール使用強化学習の改善が intrinsic 能力の成長に起因するのか、それとも tool 利用ダイナミクスに起因するのかを評価する。
  • ツール誘導の効果を gains と harms に分離し、そのトレーニングダイナミクスを分析する。
  • ツール熟知度の異なる regime でツール利用の進化を支える基礎機構を診断する。

提案手法

  • L RL において crop-and-zoom ツールを用いて VLM を訓練し、チェックポイントごとにツールなしとツールありの性能を評価する。
  • tool-induced drift G(t)=Acc_w(t)−Acc_wo(t) を定義し、end-to-end drift f_w(t) を intrinsic drift f_wo(t) と tool-induced drift Δ_tool(t) に分解する。
  • G(t) を四つの項(Call Gain, Schema Gain, Call Harm, Schema Harm)に分解し、さらに各項を Mass, Policy, Quality の成分に因数分解する(式(8))。
  • MED を用いてトレーニングダイナミクスを測定・説明・診断し、ツール利用行動とツールスキーマ相互作用への gains/harms の帰属を行う。
  • 異なるツール前提(ツール非適応の Qwen2.5-VL と ツール適応の Qwen3-VL)を用いた二つのバックボーンと六つのベンチマークを用い、チェックポイント粒度で分析する。
  • 真偽の検証分析を sanity checks を含めて実施し、Call Gain の人間適合評価や失敗セットでの頑健性を確認する。

実験結果

リサーチクエスチョン

  • RQ1ツール利用 RL の gains は intrinsic 能力の向上から来るのか、それともツール誘導効果から来るのか。
  • RQ2異なるツール熟知度 regime において intrinsic および tool induced の成分はトレーニング中にどう進化するのか。
  • RQ3Mass, Policy, Quality がツール使用における gains と harms をどのように駆動し、ツールスキーマの干渉はどのように進化するのか。
  • RQ4 vision tool-use ポリシーは本当にツールを支配するのか、それとも安全な共存を学習しているだけなのか。

主な発見

ModelAcc_woAcc_schemaGapAcc_w
Qwen2.5-VL48.442.6-5.842.2
Qwen3-VL53.040.0-13.061.2
  • intrinsic drift が全体の性能向上を支配的に決定する;tool-induced drift は学習進行のごく一部しか説明せず、ツール寄与率 S_tool ≈ 0.22–0.30。
  • 二つのバックボーンはツール漂移ダイナミクスが異なる:ツール非適応モデルはツール利用から利益を得る一方、ツール適応モデルはツールの有用性が頭打ちになるにつれて intrinsic の改善により依存する。
  • ツール利用による総害は訓練とともに減少する一方、総利益は停滞または低下し、ツールによるギャップ G(t) に停滞をもたらす。
  • Call Harm と Schema Harm はともに訓練とともに減少し、特にツールスキーマはツール適応モデルにとっては干渉が少なくなる。
  • ツール利用挙動は依然として保守的であり、難しい失敗へのツールベース補正の改善は限定的で、安全な共存を学習しているに留まることを示唆する。
  • 人間に適合した Call Gain は tool-native モデル(Qwen3-VL)で高く、意味のある人間推論と一致する gains を示す一方、ツール非適応モデルにはショートカット的な挙動が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。