Skip to main content
QUICK REVIEW

[논문 리뷰] STAR: A Benchmark for Situated Reasoning in Real-World Videos

Bo Wu, Shoubin Yu|arXiv (Cornell University)|2024. 05. 15.
Multimodal Machine Learning Applications참고 문헌 36인용 수 22
한 줄 요약

STAR는 상황 추론을 위한 실제 세계 비디오 벤치마크를 도입하고, 상황 추상화를 하이퍼그래프를 통해 로직 기반 질문과 진단적 신경-기호 모델과 결합합니다.

ABSTRACT

Reasoning in the real world is not divorced from situations. How to capture the present knowledge from surrounding situations and perform reasoning accordingly is crucial and challenging for machine intelligence. This paper introduces a new benchmark that evaluates the situated reasoning ability via situation abstraction and logic-grounded question answering for real-world videos, called Situated Reasoning in Real-World Videos (STAR Benchmark). This benchmark is built upon the real-world videos associated with human actions or interactions, which are naturally dynamic, compositional, and logical. The dataset includes four types of questions, including interaction, sequence, prediction, and feasibility. We represent the situations in real-world videos by hyper-graphs connecting extracted atomic entities and relations (e.g., actions, persons, objects, and relationships). Besides visual perception, situated reasoning also requires structured situation comprehension and logical reasoning. Questions and answers are procedurally generated. The answering logic of each question is represented by a functional program based on a situation hyper-graph. We compare various existing video reasoning models and find that they all struggle on this challenging situated reasoning task. We further propose a diagnostic neuro-symbolic model that can disentangle visual perception, situation abstraction, language understanding, and functional reasoning to understand the challenges of this benchmark.

연구 동기 및 목표

  • 지각, 추상화, 그리고 논리를 연결하는 실제 세계 위치추론의 평가를 촉진한다.
  • 작용 중심의 상황과 구조화된 하이퍼그래프 표현이 있는 통제된 벤치마크를 정의한다.
  • 상황에 기초한 실행 가능한 추론 프로그램으로 구동 가능한 질문을 절차적으로 생성한다.
  • 상황에 근거한 진단적 신경-기호 모델을 제시하여 지각, 추상화, 추론 구성 요소를 해부한다.

제안 방법

  • 실체, 관계, 행동을 연결하는 하이퍼그래프로 상황을 표현한다.
  • 질문 템플릿과 실행 가능한 기능 프로그램으로 질문과 선택지를 생성한다.
  • 실제 비디오에서 엔티티, 포즈, 관계를 추출하기 위해 비디오 파서를 사용한다.
  • Dynamics Transformer를 제안하여 상황 하이퍼그래프의 전이를 모델링한다.
  • 하이퍼그래프에서 기능적 프로그램을 실행하여 답을 도출하는 프로그램 실행기를 구현한다.
  • 최신 베이스라인을 평가하고 NS-SR 진단 모델로 차이를 분석한다.

실험 결과

연구 질문

  • RQ1현실적이고 역동적인 상황에서 효과적 추론에 필요한 역량은 무엇인가요(지각, 추상화, 상징적 추론)?
  • RQ2현존하는 시각적 QA 및 비디오 추론 모델은 실제 세계 상황에 근거한 상호작용, 시퀀스, 예측 및 실행 가능성 질문을 얼마나 잘 처리하나요?
  • RQ3신경-기호 아키텍처가 지각, 추상화, 언어이해, 상징적 추론을 분리하여 STAR의 도전과제를 진단할 수 있나요?

주요 결과

  • 현재 베이스라인은 STAR의 상황 추론 작업에서 어려움을 겪고 있으며 질문 유형 전반에 걸쳐 큰 성능 격차가 있다.
  • 비전-언어 및 비디오 QA 모델은 무작위 또는 자주 나오는 정답 베이스라인 대비 다소 개선되나 예측 및 실행 가능성 질문에서는 여전히 미흡하다.
  • 완전한 오라클 NS-SR 변형은 완벽한 점수를 달성해 추론에 필요한 정확한 상황 하이퍼그래프와 프로그램의 중요성을 강조한다.
  • 시각적 지각과 상황 추상화가 주요 병목현상이며 언어 이해가 오류에 덜 기여한다.
  • 제안된 NS-SR 아키텍처는 현실 세계의 비디오에서 지각, 추상화, 기호적 추론이 어디에서 실패할 수 있는지에 대한 통찰을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.