Skip to main content
QUICK REVIEW

[논문 리뷰] Object Level Visual Reasoning in Videos

Fabien Baradel, Nathalia Neverova|arXiv (Cornell University)|2018. 06. 16.
Human Pose and Action Recognition참고 문헌 37인용 수 89
한 줄 요약

이 논문은 비디오에서 의미적으로 중요한 객체 간 상호작용을 추론하기 위한 Object Relation Network (ORN)를 도입하여, Mask-RCNN 기반 객체 탐지와 관계 추론을 결합해 SS, VLOG, 및 EPIC Kitchens의 최첨단 성능을 달성한다.

ABSTRACT

Human activity recognition is typically addressed by detecting key concepts like global and local motion, features related to object classes present in the scene, as well as features related to the global context. The next open challenges in activity recognition require a level of understanding that pushes beyond this and call for models with capabilities for fine distinction and detailed comprehension of interactions between actors and objects in a scene. We propose a model capable of learning to reason about semantically meaningful spatiotemporal interactions in videos. The key to our approach is a choice of performing this reasoning at the object level through the integration of state of the art object detection networks. This allows the model to learn detailed spatial interactions that exist at a semantic, object-interaction relevant level. We evaluate our method on three standard datasets (Twenty-BN Something-Something, VLOG and EPIC Kitchens) and achieve state of the art results on all of them. Finally, we show visualizations of the interactions learned by the model, which illustrate object classes and their interactions corresponding to different activity classes.

연구 동기 및 목표

  • 전역 모션 및 장면 단서를 넘어서는 인간-객체 상호작용에 대한 세밀한 이해를 촉진한다.
  • 비디오에서 객체 관계에 대한 시공간 추론을 수행하기 위해 명시적 객체 탐지를 활용한다.
  • 시간에 걸친 객체 인스턴스에 대해 추론하는 엔드투엔드 학습 가능한 아키텍처를 개발한다.
  • 도전적인 데이터셋에서 객체 수준의 추론이 활동 기반 베이스라인보다 향상된 성능을 낳는다는 것을 보여준다.

제안 방법

  • 감지된 객체 인스턴스 간의 공간과 시간에 걸친 추론을 위해 Object Relation Network (ORN)을 도입한다.
  • Mask-RCNN을 사용하여 객체 마스크와 클래스 예측을 얻고, ROI-Pooling으로 각 객체의 특징을 추출한다.
  • h_theta 함수로 프레임 간의 쌍별 객체 관계를 모델링하고, 전역 함수 g로 집계한 다음, 장거리 의존성을 포착하기 위해 순환 함수 f_phi (GRU)로 전달한다.
  • 객체 추론 표현을 전역 모션 컨텍스트를 포착하는 별도의 활동 헤드와 결합한다.
  • 객체 특징을 의미론적 클래스와 맞추기 위한 보조 객체-클래스 일관성 손실과 함께 활동 분류 손실을 포함하는 공동 손실로 학습한다.

실험 결과

연구 질문

  • RQ1전통적인 글로벌 모션 모델을 넘어 객체 수준의 의미적으로 근거 있는 관계 추론이 비디오의 활동 인식 성능을 향상시킬 수 있는가?
  • RQ2순환을 포함한 명시적 프레임 간 객체 상호 작용 추론(ORN)이 미세한 비디오 이해 작업에서 더 나은 성능으로 이어지는가?
  • RQ3의미적으로 정의된 객체 인스턴스를 사용하는 것이 비디오 활동 인식에서 픽셀 수준 관계 추론과 어떻게 비교되는가?
  • RQ4객체 헤드와 활동 헤드를 공동으로 학습하는 것과 각각 분리하여 학습하는 것의 영향은 무엇인가?

주요 결과

  • VLOG에서 제안된 방법은 44.7% mAP를 달성하여 이전 최고치(40.5%)를 능가한다.
  • Something-Something에서 이 방법은 최첨단 대비 2.3 포인트 향상한다.
  • EPIC Kitchens에서 40.89% 정확도를 달성하여 기본선에 따라 대략 6.4–7.9 포인트 차이로 베이스라인을 능가한다.
  • 변인 분석은 객체 레벨 추론을 추가하는 것이 활동 헤드 베이스라인 대비 데이터셋 전반에서 주목할 만한 이득(0.8–2.5+ 포인트)을 제공한다.
  • 의미적으로 정의된 객체를 사용하면 픽셀 수준 추론에 비해 EPIC은 약 2점, VLOG은 약 2.3점 추가로 개선된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.