Skip to main content
QUICK REVIEW

[논문 리뷰] What Does Vision Tool-Use Reinforcement Learning Really Learn? Disentangling Tool-Induced and Intrinsic Effects for Crop-and-Zoom

Yan Ma, Weiyu Zhang|arXiv (Cornell University)|2026. 02. 01.
Robot Manipulation and Learning인용 수 0
한 줄 요약

이 논문은 비전 도구 활용 RL에서 intrinsic 능력 증가와 도구 유발 효과를 해리하는 MED 프레임워크를 제시하며, intrinsic 학습이 지배적이고 도구 활용은 주로 해를 완화하는 데에 그친다는 것을 보여준다.

ABSTRACT

Vision tool-use reinforcement learning (RL) can equip vision-language models with visual operators such as crop-and-zoom and achieves strong performance gains, yet it remains unclear whether these gains are driven by improvements in tool use or evolving intrinsic capabilities.We introduce MED (Measure-Explain-Diagnose), a coarse-to-fine framework that disentangles intrinsic capability changes from tool-induced effects, decomposes the tool-induced performance difference into gain and harm terms, and probes the mechanisms driving their evolution. Across checkpoint-level analyses on two VLMs with different tool priors and six benchmarks, we find that improvements are dominated by intrinsic learning, while tool-use RL mainly reduces tool-induced harm (e.g., fewer call-induced errors and weaker tool schema interference) and yields limited progress in tool-based correction of intrinsic failures. Overall, current vision tool-use RL learns to coexist safely with tools rather than master them.

연구 동기 및 목표

  • 비전 도구 활용 RL의 개선이 intrinsic 능력 성장에서 기인한 것인지 도구 활용 역학에서 기인한 것인지 평가한다.
  • 도구로 인한 효과를 이익과 해로 구분하고 이를 학습 역학과 함께 분석한다.
  • 도구 친숙도 규범에 따른 도구 활용 진화의 기저 메커니즘을 진단한다.

제안 방법

  • RL에서 crop-and-zoom 도구를 사용한 VLM 학습 및 체크포인트별 도구 없음 성능과 도구 가능 여부 성능 비교.
  • 도구 유발 드리프트 G(t)=Acc_w(t)−Acc_wo(t) 정의 및 end-to-end 드리프트 f_w(t)를 intrinsic 드리프트 f_wo(t)와 도구 유발 드리프트 Δ_tool(t)로 분해.
  • G(t)를 네 가지 항(Call Gain, Schema Gain, Call Harm, Schema Harm)으로 분해하고 각 항을 Mass, Policy, Quality 구성요소로 추가 인자화(Eq. 8)한다.
  • 도구 사용 행동 및 도구 스키마 상호작용에 기인한 이득/해를 속성화하기 위해 MED를 측정·설명·진단한다.
  • 다른 도구 사전지식을 가진 두 백본(Qwen2.5-VL의 도구-나이브 vs Qwen3-VL의 도구-네이티브)과 여섯 가지 벤치마크를 사용하고 체크포인트 단위로 분석한다.
  • 타당성 분석으로 Call Gain의 인간 정렬 평가 및 실패 집합에 대한 강건성 검사를 포함한 정상성 검사 포함.

실험 결과

연구 질문

  • RQ1도구 활용 RL의 이득이 intrinsic 능력 개선에서 기인하는지 아니면 도구 유발 효과에서 기인하는지 어느 정도인가?
  • RQ2도구 친숙도 규범에 따라 다양한 학습 중 intrinsic 및 도구 유발 구성 요소가 어떻게 진화하는가?
  • RQ3Mass, Policy, Quality가 도구 사용에서 이득과 해를 어떻게 구동하며 도구 스키마 간섭의 진화는 어떻게 나타나는가?
  • RQ4비전 도구 활용 정책이 진정으로 도구를 마스터하는가 아니면 도구와 함께 더 안전하게 공존하는가?

주요 결과

모델정확도_wo정확도_schema정확도_w
Qwen2.5-VL48.442.6-5.842.2
Qwen3-VL53.040.0-13.061.2
  • 내재 드리프트가 전체 성능 향상의 지배적 요인이며 도구 유발 드리프트는 학습 진행의 소수에 불과하다(도구 기여 비율 S_tool ≈ 0.22–0.30).
  • 두 백본은 도구 드리프트 역학이 다르게 나타냄: 도구를 모르는 모델은 도구 활용으로 이득을 얻고; 도구를 내재적으로 사용하는 모델은 도구 유용성이 정점에 달한 후에는 intrinsic 개선에 더 의존한다.
  • 도구 사용으로 인한 총 해는 학습이 진행될수록 감소하는 반면 총 이득은 정체되거나 감소하여 도구 유발 격차 G(t)에 정체를 야기한다.
  • Call Harm와 Schema Harm 모두 학습과 함께 감소하며 도구 스키마가 특히 도구 네이티브 모델에서 덜 파괴적으로 작용한다.
  • 도구 활용 행동은 보수적이며, 어려운 실패에 대한 도구 기반 보정의 개선은 제한적이어서 도구를 마스터하기보다는 안전하게 공존하는 학습을 시사한다.
  • 인간 정렬된 Call Gain은 도구 네이티브 모델(Qwen3-VL)에 대해 높아 해석 가능한 이득이 인간의 추론과 정렬됨을 시사한다; 도구를 모르는 모델은 일부 지름길 성향을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.