Skip to main content
QUICK REVIEW

[論文レビュー] Graph Convolutional Networks for Temporal Action Localization

Runhao Zeng, Wenbing Huang|arXiv (Cornell University)|Sep 7, 2019
Human Pose and Action Recognition参考文献 48被引用数 48
ひとこと要約

本論文は、2種類のエッジと2つの独立したGCNを用いてアクション提案間の関係をモデル化し、時間的アクションローカライズを改善する提案グラフモデル(P-GCN)を提案する。THUMOS14で最先端の結果を達成し、ActivityNet v1.3でも競争力のある成果を示す。

ABSTRACT

Most state-of-the-art action localization systems process each action proposal individually, without explicitly exploiting their relations during learning. However, the relations between proposals actually play an important role in action localization, since a meaningful action always consists of multiple proposals in a video. In this paper, we propose to exploit the proposal-proposal relations using Graph Convolutional Networks (GCNs). First, we construct an action proposal graph, where each proposal is represented as a node and their relations between two proposals as an edge. Here, we use two types of relations, one for capturing the context information for each proposal and the other one for characterizing the correlations between distinct actions. Then we apply the GCNs over the graph to model the relations among different proposals and learn powerful representations for the action classification and localization. Experimental results show that our approach significantly outperforms the state-of-the-art on THUMOS14 (49.1% versus 42.8%). Moreover, augmentation experiments on ActivityNet also verify the efficacy of modeling action proposal relationships. Codes are available at https://github.com/Alvin-Zeng/PGCN.

研究の動機と目的

  • 時間的アクションロ localization において提案同士の関係を活用し、分類と境界回帰を改善する動機付け。
  • 提案間の文脈的・周辺関係を捉える提案グラフの導入。
  • アクションカテゴリ、境界、完全性を共同に予測する2部構成のGCNフレームワークの開発。
  • 多数の提案にスケールするよう周辺サンプリングを用いた効率的な学習戦略の提案。
  • アブレーション実験と比較を通じてTHUMOS14とActivityNet v1.3での有効性を実証。

提案手法

  • グラフのノードとしてアクション提案を表征し、文脈的エッジ(高い tIoU)と周辺エッジ(近くで異なる提案)で接続する。
  • 隣接提案間の情報を伝播させ特徴を強化するためにK層のGCNを適用。
  • 分類用GCN1と境界回帰・完全性予測用GCN2の2つの独立したGCNを使用。
  • 各提案特徴を最後の層の出力と元の特徴を連結して拡張し、分類・回帰の構造化出力の2つのFCヘッドを用いる。
  • BSN生成の提案と2ストリームの特徴セット(RGBと光学的フロー)で訓練し、SAGE風の周辺サンプリングを用いて計算を削減。
  • 提案特徴間のコサイン類似度(学習可能な埋め込みをオプションで使用)によって隣接性の重みを定義。
  • 分類には交差エントロピー、完全性にはヒンジ損失、境界回帰にはスムーズL1を用いて最適化。

実験結果

リサーチクエスチョン

  • RQ1グラフを介した提案間の関係をモデル化することは、提案ごとの予測を超えた時間的アクションローカライズの改善につながるか?
  • RQ2どのエッジ構築(文脈的および周辺的)が提案間の関係を最もよく捉え、ローカリゼーション性能を向上させるか?
  • RQ3分類と境界回帰のために2つのGCNを使用する方が、1つの共有GCNより良い結果を生むか?
  • RQ4周辺サンプリング(SAGE)は精度を犠牲にすることなくスケーラブルな学習をどう実現するか?
  • RQ5バックボーンや提案タイプが異なる場合でも改善は一貫して見られるか?

主な発見

  • P-GCNは THUMOS14 の tIoU=0.5 での mAP が 49.1% に達し、以前の最高を 6.3 ポイント上回る。
  • ActivityNet v1.3 では、P-GCN バリアントが tIoU=0.5 で 42.90% の mAP、0.5–0.95 の平均 mAP は 2.47%(外部ラベルを用いた P-GCN* は 48.26/33.16/3.27/31.11)に達する。
  • 分類用と回帰用の2つのGCNは、MLPや単一GCNを用いた構成より一貫して優れており、カテゴリと境界の両方に対する提案関係のモデリングの価値を示している。
  • 文脈エッジと周辺エッジの両方が性能に寄与しており、どちらかのタイプを除くとmAPが低下する。
  • N_s=4 の周辺サンプリングは、トレーニング時間を大幅に削減しつつ、より良いまたは同等のmAPを提供する(イテレーションあたりの76%削減)。
  • この手法はバックボーン(BSN提案を用いたI3D特徴、TAG提案、2D特徴など)に対して堅牢で、外部アクションラベルがなくても有効であるが、外部ラベルは性能を向上させ得る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。