Skip to main content
QUICK REVIEW

[論文レビュー] TS-LSTM and Temporal-Inception: Exploiting Spatiotemporal Dynamics for Activity Recognition

Chih‐Yao Ma, Min-Hung Chen|arXiv (Cornell University)|Mar 30, 2017
Human Pose and Action Recognition参考文献 8被引用数 39
ひとこと要約

本稿では、ResNet-101をベースとする二重ストリーム畳み込みニューラルネットワークから得られる空間的および時間的特徴を統合することで、動画行動認識における時空間的特徴の学習を向上させる、TS-LSTMおよびTemporal-Inceptionという2つの新規アーキテクチャを提案する。時間的セグメンテーションに基づくLSTMとマルチスケール時間的畳み込みネットワークを適用することで、時間的拡張をほとんど行わずにUCF101で94.1%、HMDB51で69.0%の最先端の精度を達成した。

ABSTRACT

Recent two-stream deep Convolutional Neural Networks (ConvNets) have made significant progress in recognizing human actions in videos. Despite their success, methods extending the basic two-stream ConvNet have not systematically explored possible network architectures to further exploit spatiotemporal dynamics within video sequences. Further, such networks often use different baseline two-stream networks. Therefore, the differences and the distinguishing factors between various methods using Recurrent Neural Networks (RNN) or convolutional networks on temporally-constructed feature vectors (Temporal-ConvNet) are unclear. In this work, we first demonstrate a strong baseline two-stream ConvNet using ResNet-101. We use this baseline to thoroughly examine the use of both RNNs and Temporal-ConvNets for extracting spatiotemporal information. Building upon our experimental results, we then propose and investigate two different networks to further integrate spatiotemporal information: 1) temporal segment RNN and 2) Inception-style Temporal-ConvNet. We demonstrate that using both RNNs (using LSTMs) and Temporal-ConvNets on spatiotemporal feature matrices are able to exploit spatiotemporal dynamics to improve the overall performance. However, each of these methods require proper care to achieve state-of-the-art performance; for example, LSTMs require pre-segmented data or else they cannot fully exploit temporal information. Our analysis identifies specific limitations for each method that could form the basis of future work. Our experimental results on UCF101 and HMDB51 datasets achieve state-of-the-art performances, 94.1% and 69.0%, respectively, without requiring extensive temporal augmentation.

研究の動機と目的

  • 標準的な二重ストリーム畳み込みニューラルネットワークを上回る、時空間的ダイナミクスの統合を体系的かつ改善すること。
  • RNNおよび時間的畳み込みネットワーク(Temporal-ConvNets)が、特徴ベクトルに直接適用された場合に時間的情報をどの程度効果的に活用できるかを特定すること。
  • 公平な比較を可能にするために、ResNet-101をベースとする二重ストリーム畳み込みニューラルネットワークを用いて強固で一貫性のあるベースラインを確立すること。
  • 時間的セグメンテーションとマルチスケール時間的畳み込みが、単純なプーリングやセグメンテーションなしのRNNと比較して、性能を顕著に向上させられるかを調査すること。
  • エンドツーエンドの行動認識において、LSTMベースと畳み込み型時間的モデリングの間の設計選択とパフォーマンスのトレードオフを明確にすること。

提案手法

  • ImageNetで学習し、単一フレームの行動認識に微調整したResNet-101をベースとする二重ストリーム畳み込みニューラルネットワークを用い、RGBおよびオプティカルフロー入力から空間的および時間的特徴を抽出する。
  • 空間的および時間的特徴を連結し、時間的に特徴行列として構築することで、動画フレーム全体における時空間的ダイナミクスを表現する。
  • TS-LSTMは、これらの特徴行列を時間的セグメンテーションの後、長短記憶(LSTM)ネットワークを適用することで、長距離依存性のより良いモデリングを可能にする。
  • Temporal-Inceptionは、同じ特徴行列からマルチスケール時間的畳み込みカーネルをインセプション型アーキテクチャにスタックして、多スケールの時間的パターンを捉える。
  • 両手法は同一の入力特徴行列を処理するため、時間的モデリングの有効性を直接比較可能であり、アブレーションスタディも可能となる。
  • t-SNE可視化を用いて特徴空間のクラスタリングを分析し、TS-LSTMおよびTemporal-Inceptionを適用することで、クラス分離性が向上していることを示した。

実験結果

リサーチクエスチョン

  • RQ1同じ特徴行列に適用された場合、RNNベースとTemporal-ConvNetベースの手法は、時空間的ダイナミクスをどの程度効果的に活用できるか?
  • RQ2時間的セグメンテーションは、LSTM性能にどのような影響を及ぼし、セグメンテーションなしのLSTMと比較して、より優れた時間的モデリングを可能にするか?
  • RQ3マルチスケールのTemporal-Inceptionアーキテクチャは、3D畳み込みや特徴マップに依存せずに、特徴ベクトルのみを用いて最先端のパフォーマンスを達成できるか?
  • RQ4行動認識における時間的モデリングの最適パフォーマンスをもたらす、主なアーキテクチャ的およびトレーニング設計の選択は何か?
  • RQ5提案手法は、ベースラインの二重ストリーム畳み込みニューラルネットワークと比較して、特徴空間のクラスタリングおよびクラス分離性をどの程度向上させるか?

主な発見

  • TS-LSTMは、時間的拡張をほとんど行わずにUCF101で94.1%、HMDB51で69.0%の最先端の精度を達成し、ベースラインの二重ストリーム畳み込みニューラルネットワークおよび先行研究を上回った。
  • ベースラインの二重ストリーム畳み込みニューラルネットワークは、HighJump や PizzaTossing といった複雑な行動を誤分類するが、TS-LSTMおよびTemporal-Inceptionはこれらの例を正しく分類した。
  • t-SNE可視化の結果、TS-LSTMおよびTemporal-Inceptionはベースラインよりもよりコンパクトで分離性の高い特徴クラスタを生成しており、より優れた表現学習が実現していることが示された。
  • HighJumpクラスでは、TS-LSTMは62.2%のベースラインと比較して97.3%の精度を達成し、Temporal-Inceptionも94.6%を記録した。これは、時間的理解の顕著な向上を示している。
  • PizzaTossingでは、TS-LSTMが90.9%、Temporal-Inceptionが97.0%の精度を達成し、類似した運動パターンを示す微細な行動カテゴリにおける優れた一般化性能を示した。
  • 本研究では、LSTMが時間的情報を効果的に活用できないことが判明し、時間的セグメンテーションを組み合わせない限り、通常のRNNアーキテクチャに根本的な制限があることが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。