[論文レビュー] AsgardBench -- Evaluating Visually Grounded Interactive Planning Under Minimal Feedback
AsgardBenchは、視覚的に基づくインタラクティブな計画を、最小限のフィードバックシミュレータ内で視覚観察に適応する高レベルの行動列を評価することによって分離します。視覚的基盤と計画の修正が不可欠であり、テキストのみまたはフィードバック重視のベースラインは画像ベースのインタラクティブ計画に追随できないことを示しています。
With AsgardBench we aim to evaluate visually grounded, high-level action sequence generation and interactive planning, focusing specifically on plan adaptation during execution based on visual observations rather than navigation or low-level manipulation. In the landscape of embodied AI benchmarks, AsgardBench targets the capability category of interactive planning, which is more sophisticated than offline high-level planning as it requires agents to revise plans in response to environmental feedback, yet remains distinct from low-level execution. Unlike prior embodied AI benchmarks that conflate reasoning with navigation or provide rich corrective feedback that substitutes for perception, AsgardBench restricts agent input to images, action history, and lightweight success/failure signals, isolating interactive planning in a controlled simulator without low-level control noise. The benchmark contains 108 task instances spanning 12 task types, each systematically varied through object state, placement, and scene configuration. These controlled variations create conditional branches in which a single instruction can require different action sequences depending on what the agent observes, emphasizing conditional branching and plan repair during execution. Our evaluations of leading vision language models show that performance drops sharply without visual input, revealing weaknesses in visual grounding and state tracking that ultimately undermine interactive planning. Our benchmark zeroes in on a narrower question: can a model actually use what it sees to adapt a plan when things do not go as expected?
研究の動機と目的
- ナビゲーションや低レベル制御ノイズを排除して、視覚的に基づくインタラクティブ計画を分離・評価する。
- 実行中に発展する視覚観察へ高レベルの行動列を適応させる方法を評価する。
- 視覚入力、フィードバックタイプ、記憶スキャフォールドがインタラクティブ計画の性能に与える影響を決定する。
提案手法
- Navigationとモーター制御を排除するために、AI2-THOR上に3つのシーンタイプ(キッチン、リビングルーム、バスルーム)を用い、高レベルの行動抽象層を追加した。
- Findオブジェクトアクションを実装して、物体をエージェントの視野内に取り込み、インタラクション準備が整った物体や場所を自動的に選択した。
- 条件分岐と実行時の計画修復を誘発する制御変動を持つ12のタスクタイプ、108のタスクインスタンスを設計した。
- 画像ベース・テキストのみ・フィードバック排除の条件で最新のビジョン言語モデルを評価し、視覚的基盤への依存度を測定した。
- インタラクティブ計画機能に焦点を当てるため、終了条件、成功指標、ソフト/ハードのステップ制限を評価した。
- ハンドオーバーレイの除去、Things to Rememberメモリスキャフォールド、現在状態画像プロンプトの除去を含むアブレーションを実施し、状態推定とメモリの使用を探査した。
実験結果
リサーチクエスチョン
- RQ1モデルは実行中に視覚観察を用いて行動計画を適応・修復できるか。
- RQ2視覚的基盤、フィードバック信号、メモリスキャフォールドが視覚的に基づくインタラクティブ計画の性能にどう影響するか。
- RQ3計画が固定テンプレートではなく知覚に依存する場合の失敗モードは何か。
- RQ4短い視覚履歴が計画修正とタスク成功にどう影響するか。
主な発見
- 視覚入力はほとんどのモデルでテキストのみのベースラインより性能を大幅に向上させ、インタラクティブ計画における視覚基盤の依存を強調する。
- 詳細なフィードバックは性能を引き上げることがあるが、強力なビジョンモデルはフィードバックだけ以上に画像ベースの基盤化から恩恵を受ける。
- 長い/ばらつきのあるタスクは成功率の低下と相関があり、長距離の依存関係と条件分岐の課題を示す。
- 取り消し可能でないアクションと繰り返しアクションループは弱いモデルに多く見られ、成功率の低下と一致する。
- 保持物ハンドオーバーレイとメモリスキャフォールド(Things to Remember)は状態推定と計画適応に影響を与え、モデル依存で効果が混在する。
- 2つの画像(前状態と現在状態)を提供する方が、単一の現在状態画像を使用するより一般に良い結果を示し、短い視覚履歴の利点を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。