[논문 리뷰] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
VisGym은 교차 도메인, 다단계 작업에서 제어 가능한 히스토리, 피드백, 그리고 액션 표현을 갖춘 시각적으로 상호작용하는 17개 장기 지평선 환경을 제공하여 시각-언어 모델을 진단하고 훈련합니다.
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.
연구 동기 및 목표
- 다양한 도메인에 걸친 시각적으로 상호작용하는 의사결정의 체계적이고 도메인 비의존적 분석을 자극한다.
- VLMs를 위한 장기 목표 및 솔버 기반 시연을 갖춘 통합되고 확장 가능한 gymnasium을 제공한다.
- 모델 실패와 병목 현상을 진단하기 위해 입력 표현, 피드백, 히스토리, 목표 가시성에 대한 제어된 실험을 가능하게 한다.
제안 방법
- distinct domains, observability, and dynamics를 갖춘 17개의 시각적으로 상호작용하는 환경을 도입한다.
- 제로샷 롤아웃을 위한 함수 조건부 액션 공간 및 함수 지시어로 Gymnasium을 확장한다.
- 동작의 근거를 마련하고 더 풍부한 감독을 가능하게 하기 위해 텍스트 피드백을 제공한다.
- 감독 학습 미세조정을 위한 솔버 시연 생성을 위한 휴리스틱 다단계 솔버를 구현한다.
- 모듈식 작업 정의를 통해 새로운 작업 추가, 액션 공간 변화, 시각/텍스트 감독 생성을 가능하게 한다.
- 솔버 시연으로 모델을 평가하고 미세조정하여 교차 도메인 일반화와 행동을 연구한다.
실험 결과
연구 질문
- RQ1장기 맥락 히스토리가 다중 모달 에이전트의 성능에 미치는 영향은 무엇인가?
- RQ2표현 모달리티(시각 vs ASCII/텍스트)가 근거화 및 계획에 미치는 영향은 무엇인가?
- RQ3텍스트 기반 피드백 제거가 시각 전환에서의 학습과 의사결정에 어떤 영향을 미치는가?
- RQ4시각적으로 상호작용하는 작업에서 VLM에 있어 명시적 목표 정보가 도움이 되거나 해로운 경우가 언제인가?
- RQ5솔버 시연을 통한 감독 미세조정이 과제 간 일반화와 상태 표현 학습에 어떤 영향을 주는가?
주요 결과
- 강력한 프런티어 모델조차 VisGym에서 어려움을 겪으며, 최상의 모델도 Easy에서 46.61%, Hard에서 26.00%에 도달한다.
- 장기 맥락은 unrestricted일 때 성능을 해칠 수 있으며, 히스토리가 증가함에 따라 역 U자 관계를 보인다.
- 상징적(ASCII) 표현이 일부 모델을 크게 향상시킬 수 있어 지각적 기초화의 한계가 병목임을 시사한다.
- 텍스트 기반 피드백 제거는 일관되게 성능을 감소시켜 grounding을 위한 텍스트 큐를 의존함을 보여준다.
- 최종 목표 관찰 제공은 작업 전반에 걸쳐 도움이 되지만, 인식 오류로 인해 일부 모델에 대해 역효과를 낼 수 있다.
- 솔버 시연을 통한 감독 미세조정은 특히 새로운 기본 모델에서 강한 이익과 더 나은 일반화를 낳으며, 이익은 양보다 정보성 시연에서 학습하는 데서 비롯된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.