QUICK REVIEW

[논문 리뷰] What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom

Yan Ma, Weiyu Zhang|arXiv (Cornell University)|2026. 02. 01.

Robot Manipulation and Learning인용 수 0

한 줄 요약

이 논문은 비전 도구 활용 RL에서 intrinsic 능력 증가와 도구 유발 효과를 해리하는 MED 프레임워크를 제시하며, intrinsic 학습이 지배적이고 도구 활용은 주로 해를 완화하는 데에 그친다는 것을 보여준다.

ABSTRACT

Vision tool-use reinforcement learning (RL) can equip vision-language models with visual operators such as crop-and-zoom and achieves strong performance gains, yet it remains unclear whether these gains are driven by improvements in tool use or evolving intrinsic capabilities.We introduce MED (Measure-Explain-Diagnose), a coarse-to-fine framework that disentangles intrinsic capability changes from tool-induced effects, decomposes the tool-induced performance difference into gain and harm terms, and probes the mechanisms driving their evolution. Across checkpoint-level analyses on two VLMs with different tool priors and six benchmarks, we find that improvements are dominated by intrinsic learning, while tool-use RL mainly reduces tool-induced harm (e.g., fewer call-induced errors and weaker tool schema interference) and yields limited progress in tool-based correction of intrinsic failures. Overall, current vision tool-use RL learns to coexist safely with tools rather than master them.

연구 동기 및 목표

비전 도구 활용 RL의 개선이 intrinsic 능력 성장에서 기인한 것인지 도구 활용 역학에서 기인한 것인지 평가한다.
도구로 인한 효과를 이익과 해로 구분하고 이를 학습 역학과 함께 분석한다.
도구 친숙도 규범에 따른 도구 활용 진화의 기저 메커니즘을 진단한다.

제안 방법

RL에서 crop-and-zoom 도구를 사용한 VLM 학습 및 체크포인트별 도구 없음 성능과 도구 가능 여부 성능 비교.
도구 유발 드리프트 G(t)=Acc_w(t)−Acc_wo(t) 정의 및 end-to-end 드리프트 f_w(t)를 intrinsic 드리프트 f_wo(t)와 도구 유발 드리프트 Δ_tool(t)로 분해.
G(t)를 네 가지 항(Call Gain, Schema Gain, Call Harm, Schema Harm)으로 분해하고 각 항을 Mass, Policy, Quality 구성요소로 추가 인자화(Eq. 8)한다.
도구 사용 행동 및 도구 스키마 상호작용에 기인한 이득/해를 속성화하기 위해 MED를 측정·설명·진단한다.
다른 도구 사전지식을 가진 두 백본(Qwen2.5-VL의 도구-나이브 vs Qwen3-VL의 도구-네이티브)과 여섯 가지 벤치마크를 사용하고 체크포인트 단위로 분석한다.
타당성 분석으로 Call Gain의 인간 정렬 평가 및 실패 집합에 대한 강건성 검사를 포함한 정상성 검사 포함.

실험 결과

연구 질문

RQ1도구 활용 RL의 이득이 intrinsic 능력 개선에서 기인하는지 아니면 도구 유발 효과에서 기인하는지 어느 정도인가?
RQ2도구 친숙도 규범에 따라 다양한 학습 중 intrinsic 및 도구 유발 구성 요소가 어떻게 진화하는가?
RQ3Mass, Policy, Quality가 도구 사용에서 이득과 해를 어떻게 구동하며 도구 스키마 간섭의 진화는 어떻게 나타나는가?
RQ4비전 도구 활용 정책이 진정으로 도구를 마스터하는가 아니면 도구와 함께 더 안전하게 공존하는가?

주요 결과

모델	정확도_wo	정확도_schema	갭	정확도_w
Qwen2.5-VL	48.4	42.6	-5.8	42.2
Qwen3-VL	53.0	40.0	-13.0	61.2

내재 드리프트가 전체 성능 향상의 지배적 요인이며 도구 유발 드리프트는 학습 진행의 소수에 불과하다(도구 기여 비율 S_tool ≈ 0.22–0.30).
두 백본은 도구 드리프트 역학이 다르게 나타냄: 도구를 모르는 모델은 도구 활용으로 이득을 얻고; 도구를 내재적으로 사용하는 모델은 도구 유용성이 정점에 달한 후에는 intrinsic 개선에 더 의존한다.
도구 사용으로 인한 총 해는 학습이 진행될수록 감소하는 반면 총 이득은 정체되거나 감소하여 도구 유발 격차 G(t)에 정체를 야기한다.
Call Harm와 Schema Harm 모두 학습과 함께 감소하며 도구 스키마가 특히 도구 네이티브 모델에서 덜 파괴적으로 작용한다.
도구 활용 행동은 보수적이며, 어려운 실패에 대한 도구 기반 보정의 개선은 제한적이어서 도구를 마스터하기보다는 안전하게 공존하는 학습을 시사한다.
인간 정렬된 Call Gain은 도구 네이티브 모델(Qwen3-VL)에 대해 높아 해석 가능한 이득이 인간의 추론과 정렬됨을 시사한다; 도구를 모르는 모델은 일부 지름길 성향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.