Skip to main content
QUICK REVIEW

[論文レビュー] R-C3D: Region Convolutional 3D Network for Temporal Activity Detection

Huijuan Xu, Abir Das|arXiv (Cornell University)|Mar 22, 2017
Human Pose and Action Recognition参考文献 35被引用数 129
ひとこと要約

R-C3Dは、提案段階と分類段階で3D CNN特徴を共有するエンドツーエンドの高速な時系列活動検出モデルで、THUMOS’14で最先端の結果を達成し、ActivityNetとCharadesへ強い一般化性を示します。

ABSTRACT

We address the problem of activity detection in continuous, untrimmed video streams. This is a difficult task that requires extracting meaningful spatio-temporal features to capture activities, accurately localizing the start and end times of each activity. We introduce a new model, Region Convolutional 3D Network (R-C3D), which encodes the video streams using a three-dimensional fully convolutional network, then generates candidate temporal regions containing activities, and finally classifies selected regions into specific activities. Computation is saved due to the sharing of convolutional features between the proposal and the classification pipelines. The entire model is trained end-to-end with jointly optimized localization and classification losses. R-C3D is faster than existing methods (569 frames per second on a single Titan X Maxwell GPU) and achieves state-of-the-art results on THUMOS'14. We further demonstrate that our model is a general activity detection framework that does not rely on assumptions about particular dataset properties by evaluating our approach on ActivityNet and Charades. Our code is available at http://ai.bu.edu/r-c3d/.

研究の動機と目的

  • 未トリミング動画内の活動を検出し局在化する、高速なエンドツーエンドモデルを定義する。
  • 提案生成と活動分類の両方のために、共有された時空間特徴を学習する。
  • 3D RoIプーリングとアンカーベースの提案を用いて、可変長の活動提案を可能にする。
  • 特徴を共有することにより、スライディングウィンドウや回帰のみの手法より効率を向上させる。
  • 多様なデータセット(THUMOS’14、ActivityNet、Charades)に対する汎用性を示す。

提案手法

  • 完全畳み込み型の3Dネットワーク(C3Dベース)を用いて動画ストリームをエンコードし、共有された時空間特徴を抽出する。
  • アンカーベースのセグメントと時系列提案サブネットを用いて、活動を含む可能性の高い時間領域を提案する。
  • 2D RoIプーリングを3D RoIプーリングへ拡張し、可変長の提案に対して固定サイズの特徴を得る。
  • 提案を分類し、共有された分類サブツリーと回帰ヘッドで境界を洗練させる。
  • 両方のサブネットにまたがる共同の局所化(回帰)と分類損失を用いてエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

  • RQ1共有特徴を持つエンドツーエンドの3DConvNetは、未トリミング動画に対する時系列活動検出の速度と精度を改善できるか?
  • RQ2アンカーベースの時系列提案と3D RoIプーリングは、データセット全体で柔軟な活動境界の正確な検出を可能にするか?
  • RQ3R-C3Dは THUMOS’14、ActivityNet、Charades の最先端手法と比較してどうなるか?
  • RQ4提案段階と分類段階の間で畳み込み特徴を共有することの推論速度上の利点は何か?

主な発見

IoU αR-C3D (one-way) mAPR-C3D (two-way) mAP
0.151.6%54.5%
0.249.2%51.5%
0.342.8%44.8%
0.433.4%35.6%
0.527.0%28.9%
  • R-C3DはTHUMOS’14で最先端のmAPを達成し、特に高いIoU閾値で顕著である。
  • 二方向バッファリング(反転した動画バッファでの推論)は、IoU閾値を跨いでmAPを改善する(例:IoU 0.5で27.0%から28.9%へ)。
  • THUMOS’14では、Basketball Dunk、Cliff Diving、Javelin Throwなどの活動でクラス別APが大幅に向上。
  • ActivityNetとCharadesでは、エンドツーエンド訓練を用いた堅牢な汎化を示す競争力のある結果。
  • R-C3Dは他手法よりはるかに高速に動作する(Titan X Maxwellで569 fps、Titan X Pascalで1030 fps)。
  • 本モデルは、任意長の活動を検出し、重複する提案と境界の洗練化を通じて重なる活動(Charades)を扱うことができる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。