Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Context Network for Activity Localization in Videos

Xiyang Dai, Bharat Singh|arXiv (Cornell University)|Aug 8, 2017
Human Pose and Action Recognition参考文献 33被引用数 66
ひとこと要約

Temporal Context Network (TCN) は、より大きなスケールからの文脈を用いて temporally proposed segments をランク付けし、ActivityNet と THUMOS14 で最先端の結果を達成する。明示的なマルチスケール文脈サンプリングと時間的畳み込みによる。

ABSTRACT

We present a Temporal Context Network (TCN) for precise temporal localization of human activities. Similar to the Faster-RCNN architecture, proposals are placed at equal intervals in a video which span multiple temporal scales. We propose a novel representation for ranking these proposals. Since pooling features only inside a segment is not sufficient to predict activity boundaries, we construct a representation which explicitly captures context around a proposal for ranking it. For each temporal segment inside a proposal, features are uniformly sampled at a pair of scales and are input to a temporal convolutional neural network for classification. After ranking proposals, non-maximum suppression is applied and classification is performed to obtain final detections. TCN outperforms state-of-the-art methods on the ActivityNet dataset and the THUMOS14 dataset.

研究の動機と目的

  • 未編集動画における人間の活動の正確な時系列局在を動機づける。
  • 提案境界を超えた時系列文脈を組み込む提案ランカーメカニズムを開発する。
  • スケールを跨ぐ文脈サンプリングによる2ストリーム特徴表現を活用する。
  • 提案ランカーと分類段を統合して最終検出を得る。
  • ActivityNet と THUMOS14 における既存手法よりの改善を示す。

提案手法

  • 提案を等間隔かつ複数の時間スケールで配置し、潜在的な活動領域をカバーする。
  • 提案内と次の大きいスケールから特徴をサンプリングし、これらを結合して文脈認識特徴表現を構築する。
  • 組み合わさったスケール特徴に対して時間的畳み込みを適用し、提案の前景/背景を予測する。
  • 提案特徴に対してバイリニアプーリングを用い堅牢なアクション分類を行い、その後符号付き平方根とL2正規化を適用する。
  • 提案ランカーと最終分類器の両方にクロスエントロピー損失を使用し、バランスのとれたミニバッチで学習する。
  • 非最大抑制を用いて検出を最終化して評価する。

実験結果

リサーチクエスチョン

  • RQ1より大きなスケールからの時系列文脈を取り入れることは、時系列アクティビティ提案のランキングを改善するか?
  • RQ2文脈ウィンドウのスケールは局在性能と IoU 閾値ごとの mAP にどのように影響するか?
  • RQ3文脈ベースのランキングを用いた提案ベースの検出システムは、未編集動画に対して LSTM ベースやグローバル特徴アプローチを上回ることができるか?
  • RQ4ActivityNet と THUMOS14 における検出性能に対する提案数の影響は?

主な発見

手法mAP@.5mAP@.75mAP@.95注記
Ours (ActivityNet 20 proposals)37.4923.474.47Evaluation server result
Without Context (ActivityNet, top-20 proposals)15.913.110.13Context not used in ranking
  • 時系列文脈は特に高い IoU 閾値で提案ランキングを大きく改善する。
  • 文脈ベースの提案は文脈なしと比較して複数の閾値でより高い mAP を示す(ActivityNet バリデーション):mAP@.5=36.17, mAP@.75=21.12, mAP@.95=3.89 。文脈なしではそれぞれ 15.91, 3.11, 0.13。
  • 文脈スケールが約 2 のとき最適な性能を示し、それより大きいまたは小さいスケールは有効性を低下させる。
  • ActivityNet 評価サーバーでのトップパフォーマンス結果:mAP@.5=37.49, mAP@.75=23.47, mAP@.95=4.47。
  • THUMOS14 では、本手法が CDC と組み合わせた場合平均リコールを高め、検出性能を改善し、いくつかのベースラインを上回る。
  • 文脈を用いた提案ランカーは、従来の提案手法(例:DAPs、SCNN)をリコールと検出指標の両方で上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。