QUICK REVIEW

[論文レビュー] Neural Message Passing on Hybrid Spatio-Temporal Visual and Symbolic Graphs for Video Understanding

Effrosyni Mavroudi, Benjamı́n Béjar|arXiv (Cornell University)|May 17, 2019

Human Pose and Action Recognition参考文献 43被引用数 7

ひとこと要約

本論文では、マルチラベル動画理解のため、視覚的相互作用と意味的ラベル関係を統合的にモデル化するため、ハイブリッド時空間的視覚的・記号的グラフ上にニューラルメッセージパッシングフレームワークを提案する。視覚的ノード（物体、アクター）と記号的ラベルノードを統合し、タイプに応じたメッセージパッシング、ソフトアサインメント、記号的推論を用いることで、Raw RGBフレームのみを用いて、時間的サブアクティビティおよびマルチラベルアクションロケーションタスクで最先端の性能を達成する。

ABSTRACT

Many problems in video understanding require labeling multiple activities occurring concurrently in different parts of a video, including the objects and actors participating in such activities. However, state-of-the-art methods in computer vision focus primarily on tasks such as action classification, action detection, or action segmentation, where typically only one action label needs to be predicted. In this work, we propose a generic approach to classifying one or more nodes of a spatio-temporal graph grounded on spatially localized semantic entities in a video, such as actors and objects. In particular, we combine an attributed spatio-temporal visual graph, which captures visual context and interactions, with an attributed symbolic graph grounded on the semantic label space, which captures relationships between multiple labels. We further propose a neural message passing framework for jointly refining the representations of the nodes and edges of the hybrid visual-symbolic graph. Our framework features a) node-type and edge-type conditioned filters and adaptive graph connectivity, b) a soft-assignment module for connecting visual nodes to symbolic nodes and vice versa, c) a symbolic graph reasoning module that enforces semantic coherence and d) a pooling module for aggregating the refined node and edge representations for downstream classification tasks. We demonstrate the generality of our approach on a variety of tasks, such as temporal subactivity classification and object affordance classification on the CAD-120 dataset and multilabel temporal action localization on the large scale Charades dataset, where we outperform existing deep learning approaches, using only raw RGB frames.

研究の動機と目的

既存の動画理解手法が単一のアクション予測に限定されているという限界に対処すること。実世界の動画では複数の並列して進行する活動が含まれる。
視覚的実体（例：アクター、物体）と意味的ラベル（例：アクション）の間の複雑な時空間的関係を、統一されたグラフ構造でモデル化すること。
視覚的および記号的グラフ間の共同表現学習を可能にし、マルチラベル動画分類およびロケーションの性能を向上させること。
ノードおよびエッジのタイプに適応するメッセージパッシング機構を構築し、動的グラフ接続性を維持すること。

提案手法

フレームワークは、属性付きの視覚的グラフ（ノード：物体／アクター、エッジ：相互作用）と、属性付きの記号的グラフ（ノード：アクションラベル、エッジ：意味的関係）を統合したハイブリッド時空間的グラフを構築する。
ノードタイプおよびエッジタイプに応じたメッセージパッシングフィルタを用い、その意味的および構造的役割に応じてノードおよびエッジ表現を精緻化する。
ソフトアサインメントモジュールにより、視覚的ノードと記号的ノード間の双方向的メッセージパッシングを実現し、クロスモーダル注意とアライメントを可能にする。
記号的グラフ推論モジュールにより、ラベルノード間での制約伝搬を実施し、意味的整合性を保証することで、非整合な予測を防止する。
適応的グラフ接続性メカニズムにより、学習された注意に基づいてエッジ重みを動的に調整し、ノイズや疎な相互作用に対して高い耐性を発揮する。
プーリングモジュールにより、精緻化されたノードおよびエッジ表現を集約し、アクションロケーションやサブアクティビティ分類などの下流タスクにおけるエンドツーエンド分類を可能にする。

実験結果

リサーチクエスチョン

RQ1視覚的および記号的グラフの統合的モデリングは、単一タスクまたは単一ラベルアプローチを上回るマルチラベル動画理解を実現できるか？
RQ2タイプに応じたフィルタを用いたニューラルメッセージパッシングは、動画における視覚的および意味的関係を効果的に捉えられるか？
RQ3視覚的ノードと記号的ノード間のソフトアサインメントは、クロスモーダル表現学習をどの程度向上させるか？
RQ4記号的グラフ推論により、マルチラベル動画タスクにおける意味的整合性を向上させ、予測の一貫性を減少させられるか？
RQ5本フレームワークは、RGBフレーム以外の追加の教師信号を必要とせず、多様な動画理解タスクに一般化可能か？

主な発見

提案手法は、Raw RGBフレームのみを用いて、CAD-120データセットにおける時間的サブアクティビティ分類タスクでSOTA性能を達成した。
大規模なCharadesデータセットにおけるマルチラベル時間的アクションロケーションタスクでも、既存のディープラーニング手法を上回った。
記号的グラフ推論の統合により、複数のアクションラベル間で予測の一貫性と意味的整合性が顕著に向上した。
ソフトアサインメントモジュールにより、効果的なクロスモーダルアライメントが実現され、視覚的実体を関連する意味的アクションに正しく対応づける能力が向上した。
適応的グラフ接続性メカニズムにより、疎に接続されたまたはノイズの多い視覚的相互作用に対しても、メッセージパッシングの耐性が向上した。
プーリングモジュールにより、精緻化された表現が効果的に集約され、複雑で複数のアクティビティが重複する動画シーンでも正確な分類が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。