QUICK REVIEW

[논문 리뷰] AsgardBench -- Evaluating Visually Grounded Interactive Planning Under Minimal Feedback

Andrea Tupini, Lars Lidén|arXiv (Cornell University)|2026. 03. 16.

AI-based Problem Solving and Planning인용 수 0

한 줄 요약

AsgardBench는 최소 피드백 시뮬레이터에서 시각적 관찰에 적응하는 고수준 행동 시퀀스를 평가하여 시각적으로 근거를 두고 상호 작용하는 계획을 고립시킨다. 이는 시각적 기반과 계획 수정이 필수적임을 보여주며, 텍스트만의 baselines나 피드백이 강한 baselines은 이미지 기반 상호 작용 계획과 일치하기 어렵다는 것을 보여준다.

ABSTRACT

With AsgardBench we aim to evaluate visually grounded, high-level action sequence generation and interactive planning, focusing specifically on plan adaptation during execution based on visual observations rather than navigation or low-level manipulation. In the landscape of embodied AI benchmarks, AsgardBench targets the capability category of interactive planning, which is more sophisticated than offline high-level planning as it requires agents to revise plans in response to environmental feedback, yet remains distinct from low-level execution. Unlike prior embodied AI benchmarks that conflate reasoning with navigation or provide rich corrective feedback that substitutes for perception, AsgardBench restricts agent input to images, action history, and lightweight success/failure signals, isolating interactive planning in a controlled simulator without low-level control noise. The benchmark contains 108 task instances spanning 12 task types, each systematically varied through object state, placement, and scene configuration. These controlled variations create conditional branches in which a single instruction can require different action sequences depending on what the agent observes, emphasizing conditional branching and plan repair during execution. Our evaluations of leading vision language models show that performance drops sharply without visual input, revealing weaknesses in visual grounding and state tracking that ultimately undermine interactive planning. Our benchmark zeroes in on a narrower question: can a model actually use what it sees to adapt a plan when things do not go as expected?

연구 동기 및 목표

네비게이션이나 저수준 제어 잡음 없이 시각적으로 근거한 상호 작용 계획을 고립시키고 평가한다.
실행 중 변하는 시각 관찰에 에이전트가 고수준 행동 시퀀스를 어떻게 적응시키는지 평가한다.
시각 입력, 피드백 유형 및 메모리 보강 구조가 상호 작용 계획 성능에 미치는 영향을 규명한다.

제안 방법

AI2-THOR를 기반으로 세 가지 씬 유형(Kitchens, Living Rooms, Bathrooms)을 사용하고 네비게이션과 모터 제어를 제거하기 위한 고수준 행동 추상화 계층을 추가했다.
객체를 에이전트의 시야에 들여오고 상호 작용 가능 객체나 위치를 자동으로 선택하기 위한 FIND 객체 동작을 구현했다.
실행 중 조건부 분기 및 계획 보정을 유도하는 제어된 변형을 가진 12가지 작업 유형에 걸친 108개의 작업 인스턴스를 설계했다.
이미지 기반, 텍스트 전용, 피드백 제거 조건에서 최첨단 비전-언어 모델을 평가하여 시각적 근거화에 대한 의존도를 측정했다.
상호 작용 계획 능력에 평가를 집중하기 위해 종료 조건, 성공 메트릭, 소프트/하드 스텝 제한을 평가했다.
손 오버레이 제거, Things to Remember 메모리 보강 구조, 그리고 현재 상태 이미지 프롬프트 제거를 포함한 차단(ablation)을 수행하여 상태 추정 및 메모리 사용을 조사했다.

실험 결과

연구 질문

RQ1모델이 실행 중 시각적 관찰을 이용해 행동 계획을 적응시키고 보완할 수 있는가?
RQ2시각적 근거화, 피드백 신호, 그리고 메모리 보강 구조가 시각적으로 근거 있는 상호 작용 계획에서 성능에 어떤 영향을 미치는가?
RQ3고정된 템플릿이 아닌 지각에 의존할 때 계획의 실패 모드는 무엇인가?
RQ4짧은 시각적 히스토리가 계획 수정과 작업 성공에 어떤 영향을 미치는가?

주요 결과

시각 입력은 텍스트 전용 기준선에 비해 대부분의 모델의 성능을 현저히 향상시키며, 상호 작용 계획에서 시각적 근거화에 대한 의존도를 강조한다.
상세한 피드백은 성능을 높일 수 있지만, 강력한 비전 모델은 피드백만으로는 얻을 수 없는 이미지 기반 근거화의 이점을 여전히 누린다.
더 길고 분산이 큰 작업은 성공률이 낮아지는 상관관계가 있어, 장기 의존성과 조건부 분기에 대한 도전이 있음을 시사한다.
되돌릴 수 없는 동작과 반복적 동작 루프는 약한 모델에서 더 많이 나타나며 낮은 성공률과 일치한다.
잡고 있는 객체의 손 오버레이와 메모리 스캐폴드(Things to Remember)는 상태 추정과 계획 적응에 영향을 주며, 모델에 따라 효과가 엇갈린다.
두 장의 이미지(이전 상태와 현재 상태)를 제공하는 것이 일반적으로 단일 현재 상태 이미지보다 더 나은 결과를 낳으며, 짧은 시각적 히스토리의 이점을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.