QUICK REVIEW

[論文レビュー] Learning Human-Object Interactions by Graph Parsing Neural Networks

Siyuan Qi, Wenguan Wang|arXiv (Cornell University)|Aug 23, 2018

Multimodal Machine Learning Applications参考文献 39被引用数 59

ひとこと要約

GPNNはパースグラフを学習し、エンドツーエンドのメッセージ伝播を実行して画像や動画内の人間-物体相互作用を検出・認識する。HOIベンチマークで最先端を上回る。静的・時間的設定の両方でHOIタスクのためにグラフ構造を同時に推論し、メッセージを伝搬する。

ABSTRACT

This paper addresses the task of detecting and recognizing human-object interactions (HOI) in images and videos. We introduce the Graph Parsing Neural Network (GPNN), a framework that incorporates structural knowledge while being differentiable end-to-end. For a given scene, GPNN infers a parse graph that includes i) the HOI graph structure represented by an adjacency matrix, and ii) the node labels. Within a message passing inference framework, GPNN iteratively computes the adjacency matrices and node labels. We extensively evaluate our model on three HOI detection benchmarks on images and videos: HICO-DET, V-COCO, and CAD-120 datasets. Our approach significantly outperforms state-of-art methods, verifying that GPNN is scalable to large datasets and applies to spatial-temporal settings. The code is available at https://github.com/SiyuanQi/gpnn.

研究の動機と目的

HOI構造をグラフとして明示的に表現する統一されたエンドツーエンドフレームワークの確立を動機づける。
パースグラフを推論し HOI ラベリングを行うことができる微分可能なグラフパーシングニューラルネットワークを開発する。
大規模なHOIデータセットに対するGPNNのスケーラビリティと空間-時間的HOIタスクへの適用性を示す。

提案手法

HOIを人間ノードと物体ノードを含む完全グラフとして表現し、パースグラフ推定のための学習可能な隣接を用いる。
リンク、メッセージ、アップデート、リードアウトの4つのモジュラー関数を定義し、エンドツーエンドで微分可能なグラフパーシングとベイズ伝搬風推論を行う。
隣接行列とノード状態をSステップにわたって反復的に更新し、グラフ構造とHOIラベルを同時に学習する。
Linkを1x1畳み込みを介してAを生成するニューラルネットワークで実装する；時系列グラフにはconvLSTMを用いる。
GRUベースの更新とリードアウトネットワークを用いてHOIのアクション/オブジェクトラベルを生成する。
隣接構造の損失（L1）とノード出力の損失（マルチラベルヒンジ損失）で訓練する。

実験結果

リサーチクエスチョン

RQ1GPNNは解析グラフ構造を共同で学習し、HOIラベリングを微分可能でエンドツーエンドな方法で実行できるか？
RQ2適応的なグラフ構造を学習することは、固定グラフや純粋なニューラルベースの手法に対してHOI検出・認識を改善するか？
RQ3このフレームワークは大規模なHOIデータセットに対してスケーラブルかつ空間-時間的HOIタスクに適用できるか？
RQ4反復的なグラフ学習（複数のメッセージ伝搬ステップ）は性能にどう影響するか？
RQ5学習されたグラフ（隣接）に対する監督信号が、固定グラフや正則化されていないグラフと比べてどのような影響を与えるか？

主な発見

GPNNは画像でのHOI検出（HICO-DETおよびV-COCO）と動画のHOI認識/予測（CAD-120）でベースラインより顕著な改善を達成した。
HICO-DETでは、GPNNはFull, Rare, Non-Rareカテゴリ全体で以前の手法を上回る顕著な利得を達成。
V-COCOではSet 1、Set 2、およびAverage mAPの全てでベースラインを上回る。
CAD-120では、GPNNはサブアクティビティとオブジェクトアフォーダンス検出のF1スコアが高く、ATCRFおよびS-RNNよりもサブアクティビティをより良く予測する。
アブレーション研究は、グラフ構造の学習、メッセージ伝搬を伴う結合パーシング、反復的な改良のすべてが性能向上に寄与することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。