QUICK REVIEW

[논문 리뷰] Neural Message Passing on Hybrid Spatio-Temporal Visual and Symbolic Graphs for Video Understanding

Effrosyni Mavroudi, Benjamı́n Béjar|arXiv (Cornell University)|2019. 05. 17.

Human Pose and Action Recognition참고 문헌 43인용 수 7

한 줄 요약

이 논문은 원시 RGB 프레임만을 사용하여 다중 레이블 비디오 이해를 위해 시각적 상호작용과 의미적 레이블 관계를 동시에 모델링하기 위해 하이브리드 시공간 시각적 및 기호적 그래프 위에 신경 메시지 전파 프레임워크를 제안한다. 시각적 노드(객체, 주체)와 기호적 레이블 노드를 통합하고 유형 조건에 기반한 메시지 전파, 소프트 할당, 기호적 추론을 사용함으로써, 시간적 하위활동 및 다중 레이블 동작 국지화 작업에서 최신 기술(SOTA) 성능을 달성한다.

ABSTRACT

Many problems in video understanding require labeling multiple activities occurring concurrently in different parts of a video, including the objects and actors participating in such activities. However, state-of-the-art methods in computer vision focus primarily on tasks such as action classification, action detection, or action segmentation, where typically only one action label needs to be predicted. In this work, we propose a generic approach to classifying one or more nodes of a spatio-temporal graph grounded on spatially localized semantic entities in a video, such as actors and objects. In particular, we combine an attributed spatio-temporal visual graph, which captures visual context and interactions, with an attributed symbolic graph grounded on the semantic label space, which captures relationships between multiple labels. We further propose a neural message passing framework for jointly refining the representations of the nodes and edges of the hybrid visual-symbolic graph. Our framework features a) node-type and edge-type conditioned filters and adaptive graph connectivity, b) a soft-assignment module for connecting visual nodes to symbolic nodes and vice versa, c) a symbolic graph reasoning module that enforces semantic coherence and d) a pooling module for aggregating the refined node and edge representations for downstream classification tasks. We demonstrate the generality of our approach on a variety of tasks, such as temporal subactivity classification and object affordance classification on the CAD-120 dataset and multilabel temporal action localization on the large scale Charades dataset, where we outperform existing deep learning approaches, using only raw RGB frames.

연구 동기 및 목표

기존의 비디오 이해 방법이 단일 행동 예측에 집중하는 데에 한계가 있다는 점을 해결하기 위해, 현실 세계의 비디오는 다수의 동시 발생 활동을 포함한다는 점을 고려한다.
시각적 실체(예: 주체, 객체)와 의미적 레이블(예: 동작) 사이의 복잡한 시공간 관계를 통합된 그래프 구조에서 모델링한다.
시각적 그래프와 기호적 그래프 간의 공동 표현 학습을 통해 다중 레이블 비디오 분류 및 국지화 성능을 향상시킨다.
노드 및 간 유형에 맞춰 적응하는 메시지 전파 메커니즘을 개발하여 동적 그래프 연결성을 유지한다.

제안 방법

프레임워크는 소유 특성 시각 그래프(노드: 객체/주체, 간: 상호작용)와 소유 특성 기호 그래프(노드: 동작 레이블, 간: 의미 관계)를 조합한 하이브리드 시공간 그래프를 구성한다.
노드 유형과 간 유형에 따라 조건화된 메시지 전파 필터를 사용하여 노드 및 간 표현을 그들의 의미적 역할과 구조적 역할에 따라 개선한다.
소프트 할당 모듈은 시각적 노드와 기호적 노드 간 双방향 메시지 전파를 가능하게 하여 다중 모odal 주의 및 정렬을 지원한다.
기호 그래프 추론 모듈은 레이블 노드 간에 제약 조건을 전파하여 의미 일관성을 강제함으로써 예측의 비일관성을 방지한다.
적응형 그래프 연결성 메커니즘은 학습된 주의 기반으로 간 가중치를 동적으로 조정하여 노이즈가 많거나 희박한 상호작용에 대한 강건성을 향상시킨다.
풀링 모듈은 개선된 노드 및 간 표현을 집계하여 액션 국지화 및 하위활동 분류와 같은 최종 작업에서 엔드 투 엔드 분류를 가능하게 한다.

실험 결과

연구 질문

RQ1시각적 그래프와 기호적 그래프의 공동 모델링이 단일 작업 또는 단일 레이블 접근 방식을 초월하여 다중 레이블 비디오 이해 성능을 향상시킬 수 있는가?
RQ2유형 조건에 기반한 필터를 사용한 신경 메시지 전파가 비디오 내 시각적 및 의미적 관계를 얼마나 효과적으로 포착하는가?
RQ3시각적 노드와 기호적 노드 간의 소프트 할당이 다중 모달 표현 학습을 얼마나 향상시키는가?
RQ4기호 그래프 추론이 다중 레이블 비디오 작업에서 의미 일관성 향상과 예측 비일관성 감소에 기여하는 정도는 어느 정도인가?
RQ5이 프레임워크는 RGB 프레임 외에 추가적인 지도 학습 없이 다양한 비디오 이해 작업에 일반화되는가?

주요 결과

제안된 방법은 원시 RGB 프레임만을 사용하여 CAD-120 데이터셋에서 시간적 하위활동 분류 작업에서 최신 기술(SOTA) 성능을 달성한다.
대규모 Charades 데이터셋에서 다중 레이블 시간적 동작 국지화 작업에서 기존 딥 러닝 접근 방식을 모두 능가한다.
기호 그래프 추론 통합은 다중 동작 레이블 간 예측 일관성과 의미 일관성 향상에 크게 기여한다.
소프트 할당 모듈은 효과적인 다중 모달 정렬을 가능하게 하여 시각적 실체를 관련 의미적 동작에 정확히 대응시키는 능력을 향상시킨다.
적응형 그래프 연결성 메커니즘은 메시지 전파 중 희박하게 연결되거나 노이즈가 많은 시각적 상호작용에 대한 강건성을 향상시킨다.
풀링 모듈은 개선된 표현을 효과적으로 집계하여 복잡한 다중 활동 비디오 장면에서도 정확한 분류를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.