QUICK REVIEW

[論文レビュー] Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

Limin Wang, Yuanjun Xiong|arXiv (Cornell University)|Aug 2, 2016

Human Pose and Action Recognition参考文献 32被引用数 289

ひとこと要約

Temporal Segment Networks (TSN) を導入し、ビデオの長距離時系列構造をスパースサンプリングとビデオレベルの監督でモデル化し、実用的な訓練戦略により深いConvNetsが HMDB51 および UCF101 で最先端のアクション認識を達成可能にする。

ABSTRACT

Deep convolutional networks have achieved great success for visual recognition in still images. However, for action recognition in videos, the advantage over traditional methods is not so evident. This paper aims to discover the principles to design effective ConvNet architectures for action recognition in videos and learn these models given limited training samples. Our first contribution is temporal segment network (TSN), a novel framework for video-based action recognition. which is based on the idea of long-range temporal structure modeling. It combines a sparse temporal sampling strategy and video-level supervision to enable efficient and effective learning using the whole action video. The other contribution is our study on a series of good practices in learning ConvNets on video data with the help of temporal segment network. Our approach obtains the state-the-of-art performance on the datasets of HMDB51 ( $ 69.4\% $) and UCF101 ($ 94.2\% $). We also visualize the learned ConvNet models, which qualitatively demonstrates the effectiveness of temporal segment network and the proposed good practices.

研究の動機と目的

動作の長距離時系列構造を捉える効果的なビデオレベル表現を動機づける。
ビデオにおける深いConvNetの訓練データが限られている問題に対し、堅牢な訓練手法を提案して対応する。
全ビデオ情報を活用しつつ計算効率を高めたスパースなエンドツーエンドフレームワークを開発する。

提案手法

各ビデオからK個の短いスニペットをスパースにサンプリングし、セグメント合意によってスニペット予測を集約してビデオレベルの予測を得る Temporal Segment Networks (TSN) を提案する。
各スニペットに対して非常に深いネットワーク（BN-Inception）を用いた二流のConvNetアーキテクチャ（空間RGBストリームと時間フロー/光学フローストリーム）を使用する。
複数の入力モダリティ（RGB、RGB差、光学フロー、ワープ光学フロー）を探索し、それらの補完情報を評価する。
RGBで事前学習したモデルから時系列ネットワークを初期化するためのクロスモダリティ事前学習を適用し、過学習を抑えるためにドロップアウトを用いた部分的なBatch Normalizationを使用し、データ拡張（コーナークロップ、スケールジッタリング）を実装する。
微分可能なセグメント集合化（平均プーリングが有効であることが分かった）を採用してスニペットレベルの予測をビデオレベルのスコアに融合し、バックプロパゲーションを用いたエンドツーエンド訓練を可能にする。

実験結果

リサーチクエスチョン

RQ1深いConvNetを用いたアクション認識のために、ビデオの長距離時系列構造をどのように効果的にモデル化できるか。
RQ2スパースな時系列サンプリングとセグメントレベルの集約を組み合わせることで、密なサンプリングよりはるかに低い計算量で競争力のある性能を達成できるか。
RQ3限られたビデオデータ上で非常に深いConvNetを訓練するための最良の実践（事前学習、正則化、データ拡張）は何か、どの入力モダリティが性能を最大化するか？

主な発見

彼らの設定で、スパースサンプリングとセグメント合意を用いたTSNは HMDB51 (69.4%) および UCF101 (94.2%) で最先端の結果をもたらす。
複数モダリティの融合（RGB、RGB差、光学フロー、ワープ光学フロー）は認識を改善し、4つすべてのモダリティを用いた最良の結果は、実験のいずれかの部分集合より高い精度を達成した。
クロスモダリティ事前学習、ドロップアウトを伴う部分的BN、そして高度なデータ拡張は、限定データ下での二流CNNの性能を大幅に向上させる。
セグメント合意関数としての平均プーリングは、最大プーリングや加重平均を実験で上回る。
BN-Inceptionベースの二-streamネットワークとTSNは他のアーキテクチャを上回り、長期的な時系列モデリングがビデオのアクション認識において重要であることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。