[論文レビュー] What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom
この論文は vision tool-use RL における intrinsic capability の成長と tool 利用による効果を分離する MED を提案し、 intrinsic 学習が支配的で、ツール利用は主に害を減らすことに寄与する程度であり、ツールを習得すること自体には至っていないことを示す
Vision tool-use reinforcement learning (RL) can equip vision-language models with visual operators such as crop-and-zoom and achieves strong performance gains, yet it remains unclear whether these gains are driven by improvements in tool use or evolving intrinsic capabilities.We introduce MED (Measure-Explain-Diagnose), a coarse-to-fine framework that disentangles intrinsic capability changes from tool-induced effects, decomposes the tool-induced performance difference into gain and harm terms, and probes the mechanisms driving their evolution. Across checkpoint-level analyses on two VLMs with different tool priors and six benchmarks, we find that improvements are dominated by intrinsic learning, while tool-use RL mainly reduces tool-induced harm (e.g., fewer call-induced errors and weaker tool schema interference) and yields limited progress in tool-based correction of intrinsic failures. Overall, current vision tool-use RL learns to coexist safely with tools rather than master them.
研究の動機と目的
- ビジョンツール使用強化学習の改善が intrinsic 能力の成長に起因するのか、それとも tool 利用ダイナミクスに起因するのかを評価する。
- ツール誘導の効果を gains と harms に分離し、そのトレーニングダイナミクスを分析する。
- ツール熟知度の異なる regime でツール利用の進化を支える基礎機構を診断する。
提案手法
- L RL において crop-and-zoom ツールを用いて VLM を訓練し、チェックポイントごとにツールなしとツールありの性能を評価する。
- tool-induced drift G(t)=Acc_w(t)−Acc_wo(t) を定義し、end-to-end drift f_w(t) を intrinsic drift f_wo(t) と tool-induced drift Δ_tool(t) に分解する。
- G(t) を四つの項(Call Gain, Schema Gain, Call Harm, Schema Harm)に分解し、さらに各項を Mass, Policy, Quality の成分に因数分解する(式(8))。
- MED を用いてトレーニングダイナミクスを測定・説明・診断し、ツール利用行動とツールスキーマ相互作用への gains/harms の帰属を行う。
- 異なるツール前提(ツール非適応の Qwen2.5-VL と ツール適応の Qwen3-VL)を用いた二つのバックボーンと六つのベンチマークを用い、チェックポイント粒度で分析する。
- 真偽の検証分析を sanity checks を含めて実施し、Call Gain の人間適合評価や失敗セットでの頑健性を確認する。
実験結果
リサーチクエスチョン
- RQ1ツール利用 RL の gains は intrinsic 能力の向上から来るのか、それともツール誘導効果から来るのか。
- RQ2異なるツール熟知度 regime において intrinsic および tool induced の成分はトレーニング中にどう進化するのか。
- RQ3Mass, Policy, Quality がツール使用における gains と harms をどのように駆動し、ツールスキーマの干渉はどのように進化するのか。
- RQ4 vision tool-use ポリシーは本当にツールを支配するのか、それとも安全な共存を学習しているだけなのか。
主な発見
| Model | Acc_wo | Acc_schema | Gap | Acc_w |
|---|---|---|---|---|
| Qwen2.5-VL | 48.4 | 42.6 | -5.8 | 42.2 |
| Qwen3-VL | 53.0 | 40.0 | -13.0 | 61.2 |
- intrinsic drift が全体の性能向上を支配的に決定する;tool-induced drift は学習進行のごく一部しか説明せず、ツール寄与率 S_tool ≈ 0.22–0.30。
- 二つのバックボーンはツール漂移ダイナミクスが異なる:ツール非適応モデルはツール利用から利益を得る一方、ツール適応モデルはツールの有用性が頭打ちになるにつれて intrinsic の改善により依存する。
- ツール利用による総害は訓練とともに減少する一方、総利益は停滞または低下し、ツールによるギャップ G(t) に停滞をもたらす。
- Call Harm と Schema Harm はともに訓練とともに減少し、特にツールスキーマはツール適応モデルにとっては干渉が少なくなる。
- ツール利用挙動は依然として保守的であり、難しい失敗へのツールベース補正の改善は限定的で、安全な共存を学習しているに留まることを示唆する。
- 人間に適合した Call Gain は tool-native モデル(Qwen3-VL)で高く、意味のある人間推論と一致する gains を示す一方、ツール非適応モデルにはショートカット的な挙動が見られる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。