QUICK REVIEW

[논문 리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Zirui Wang, Junyi Zhang|arXiv (Cornell University)|2026. 01. 23.

Multimodal Machine Learning Applications인용 수 0

한 줄 요약

VisGym은 교차 도메인, 다단계 작업에서 제어 가능한 히스토리, 피드백, 그리고 액션 표현을 갖춘 시각적으로 상호작용하는 17개 장기 지평선 환경을 제공하여 시각-언어 모델을 진단하고 훈련합니다.

ABSTRACT

Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.

연구 동기 및 목표

다양한 도메인에 걸친 시각적으로 상호작용하는 의사결정의 체계적이고 도메인 비의존적 분석을 자극한다.
VLMs를 위한 장기 목표 및 솔버 기반 시연을 갖춘 통합되고 확장 가능한 gymnasium을 제공한다.
모델 실패와 병목 현상을 진단하기 위해 입력 표현, 피드백, 히스토리, 목표 가시성에 대한 제어된 실험을 가능하게 한다.

제안 방법

distinct domains, observability, and dynamics를 갖춘 17개의 시각적으로 상호작용하는 환경을 도입한다.
제로샷 롤아웃을 위한 함수 조건부 액션 공간 및 함수 지시어로 Gymnasium을 확장한다.
동작의 근거를 마련하고 더 풍부한 감독을 가능하게 하기 위해 텍스트 피드백을 제공한다.
감독 학습 미세조정을 위한 솔버 시연 생성을 위한 휴리스틱 다단계 솔버를 구현한다.
모듈식 작업 정의를 통해 새로운 작업 추가, 액션 공간 변화, 시각/텍스트 감독 생성을 가능하게 한다.
솔버 시연으로 모델을 평가하고 미세조정하여 교차 도메인 일반화와 행동을 연구한다.

실험 결과

연구 질문

RQ1장기 맥락 히스토리가 다중 모달 에이전트의 성능에 미치는 영향은 무엇인가?
RQ2표현 모달리티(시각 vs ASCII/텍스트)가 근거화 및 계획에 미치는 영향은 무엇인가?
RQ3텍스트 기반 피드백 제거가 시각 전환에서의 학습과 의사결정에 어떤 영향을 미치는가?
RQ4시각적으로 상호작용하는 작업에서 VLM에 있어 명시적 목표 정보가 도움이 되거나 해로운 경우가 언제인가?
RQ5솔버 시연을 통한 감독 미세조정이 과제 간 일반화와 상태 표현 학습에 어떤 영향을 주는가?

주요 결과

강력한 프런티어 모델조차 VisGym에서 어려움을 겪으며, 최상의 모델도 Easy에서 46.61%, Hard에서 26.00%에 도달한다.
장기 맥락은 unrestricted일 때 성능을 해칠 수 있으며, 히스토리가 증가함에 따라 역 U자 관계를 보인다.
상징적(ASCII) 표현이 일부 모델을 크게 향상시킬 수 있어 지각적 기초화의 한계가 병목임을 시사한다.
텍스트 기반 피드백 제거는 일관되게 성능을 감소시켜 grounding을 위한 텍스트 큐를 의존함을 보여준다.
최종 목표 관찰 제공은 작업 전반에 걸쳐 도움이 되지만, 인식 오류로 인해 일부 모델에 대해 역효과를 낼 수 있다.
솔버 시연을 통한 감독 미세조정은 특히 새로운 기본 모델에서 강한 이익과 더 나은 일반화를 낳으며, 이익은 양보다 정보성 시연에서 학습하는 데서 비롯된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.