[論文レビュー] VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
VisGym は、クロスドメイン・多段階タスクを診断・訓練するための、長期的・視覚的に対話可能な環境を17個提供します。履歴・フィードバック・行動表現の制御可能性を持つ。
Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.
研究の動機と目的
- ドメインを超えた視覚的に対話的な意思決定の体系的・ドメイン非依存の分析を促進する。
- 長期的タスクとソルバー型デモンストレーションを備えた統一的で拡張可能な Gymnasium を VLM のために提供する。
- 入力表現・フィードバック・履歴・目標可視性を制御した実験を可能にし、モデルの故障点とボトルネックを診断する。
提案手法
- distinct なドメイン・観測性・ダイナミクスを持つ 17 の視覚的に対話可能な環境を導入する。
- ゼロショット展開のための関数条件付き行動空間と関数指示を用いて Gymnasium を拡張する。
- 行動を地盤づけし、より豊かな監視を可能にするためにテキスト的フィードバックを提供する。
- 教師付き微調整のためのソルバー系デモンストレーションを生成するヒューリスティックな多段階ソルバーを実装する。
- モジュール式タスク定義により新しいタスクの追加・行動空間の変更・視覚的・テキスト的監督の生成を可能にする。
- ソルバーデモンストレーションを用いた評価と微調整により、クロスドメイン一般化と挙動を検討する。
実験結果
リサーチクエスチョン
- RQ1長期的文脈履歴はタスク間の多模態エージェントの性能にどのように影響するか?
- RQ2表現モダリティ(視覚 vs ASCII/テキスト)が基盤づけと計画に与える影響は?
- RQ3テキストベースのフィードバックを除くと視覚遷移からの学習と意思決定はどうなるか?
- RQ4視覚的に対話的なタスクにおいて、VLM にとって明示的な目標情報は有益か、それとも害になるか?
- RQ5ソルバーデモンストレーションによる教師付き微調整は、タスク間一般化と状態表現学習にどのような影響を与えるか?
主な発見
- 最先端モデルでも VisGym での性能は限定的で、最良モデルは Easy で 46.61%、Hard で 26.00% にとどまる。
- 長い文脈は無制限に使用すると性能を低下させる可能性があり、履歴が増えると逆U字型の関係を示す。
- 象徴的な(ASCII)表現は一部のモデルを大幅に向上させることがあり、知覚的な基盤づけの限界がボトルネックであることを示唆する。
- テキストベースのフィードバックを除くと一貫して性能が低下し、基盤づけに対する言語的手掛かりへの依存を示す。
- 最終的な目標観測を提供することはタスク全般で有益だが、知覚誤りのため一部のモデルには逆効果となることがある。
- ソルバー・デモンストレーションによる監督付き微調整は強力な改善と一般化をもたらし、特に新しいベースモデルで顕著である。情報に富むデモンストレーションから学習することによる利益が、単なるデモの量よりも大きい。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。