QUICK REVIEW

[論文レビュー] CDC: Convolutional-De-Convolutional Networks for Precise Temporal Action Localization in Untrimmed Videos

Zheng Shou, Jonathan Chan|arXiv (Cornell University)|Mar 4, 2017

Human Pose and Action Recognition参考文献 60被引用数 62

ひとこと要約

Convolutional-De-Convolutional (CDC) ネットワークを3D ConvNetsの上に構築し、フレームレベルのアクションスコアを予測。未整列動画の精密な時間的局在化を高効率で実現（約500 FPS）。

ABSTRACT

Temporal action localization is an important yet challenging problem. Given a long, untrimmed video consisting of multiple action instances and complex background contents, we need not only to recognize their action categories, but also to localize the start time and end time of each instance. Many state-of-the-art systems use segment-level classifiers to select and rank proposal segments of pre-determined boundaries. However, a desirable model should move beyond segment-level and make dense predictions at a fine granularity in time to determine precise temporal boundaries. To this end, we design a novel Convolutional-De-Convolutional (CDC) network that places CDC filters on top of 3D ConvNets, which have been shown to be effective for abstracting action semantics but reduce the temporal length of the input data. The proposed CDC filter performs the required temporal upsampling and spatial downsampling operations simultaneously to predict actions at the frame-level granularity. It is unique in jointly modeling action semantics in space-time and fine-grained temporal dynamics. We train the CDC network in an end-to-end manner efficiently. Our model not only achieves superior performance in detecting actions in every frame, but also significantly boosts the precision of localizing temporal boundaries. Finally, the CDC network demonstrates a very high efficiency with the ability to process 500 frames per second on a single GPU server. We will update the camera-ready version and publish the source codes online soon.

研究の動機と目的

細粒度なフレームレベルの時間的局在化の必要性を、事前定義されたセグメント提案を超えて動機づける。
空間でダウンサンプリングしつつ時間軸でアップサンプリングするCDCフィルターを共同学習で提案し、フレームレベルの解像度を保持。
3D ConvNetsの上にエンドツーエンドのCDCネットワークを設計し、密なフレームごとのアクションスコアを生成。
THUMOS’14とActivityNet 2016で、フレームごとのラベル付け精度と時間的局在の精度の改善を示す。

提案手法

C3Dを置換/拡張し、空間ダウンサンプリング（4x4）と時間的アップサンプリング（2x）を同時に実行するCDCフィルターへ。
FC6/FC7をCDC6/CDC7に適合させ、マルチフレーム出力とフレームレベル予測を可能に。
フレーム単位のソフトマックス分類器（CDC8）を追加し、フレームレベルのクロスエントロピー損失で訓練。
安定性のため、事前訓練済みC3D初期化を用い、動画ウィンドウ（32 frames）で SGD によるエンドツーエンド訓練。
テスト時には、提案ウィンドウ上でフレームごとのスコアを生成し、フレーム信頼度のガウシアン KDE によってセグメント境界を refined。

実験結果

リサーチクエスチョン

RQ1CDCフィルターが空間的にダウンサンプリングしつつ時間的にアップサンプリングして、フレームレベルのアクション予測を同時に得られるか？
RQ2フレームレベルの予測は、セグメントレベルのアプローチと比べて時間的境界の局在化を有意に改善するか？
RQ3エンドツーエンドのCDCベースの局在化は、THUMOS’14とActivityNet 2016の最新手法と比較してどうか？
RQ4CDCアプローチはリアルタイムまたはほぼリアルタイム処理のために計算効率が十分か？

主な発見

表1: THUMOS’14におけるフレームごとのラベリング mAP
Single-frame CNN	34.7%
Two-stream CNN	36.2%
LSTM	39.3%
MultiLSTM	41.3%
C3D + LinearInterp	37.0%
Conv & De-conv	41.7%
CDC (fix 3D ConvNets)	37.4%
CDC	44.4%

CDCはTHUMOS’14におけるフレームごとのラベリングmAPで最先端を達成し、単一フレーム、Two-stream CNN、LSTM、および初期の C3Dベース手法を上回る。
CDCのフレームレベル予測は、IoU閾値(0.3–0.7)においてS-CNN、C3D+LinearInterp、Conv&De-convベースライン、およびCDCバリアントと比較して優れた時間的局在化精度を示す。
ActivityNet 2016でのセグメント境界の洗練には、CDCフレームレベル予測が改善、特に高IoU(0.75)で顕著。
CDCネットワークは単一GPU（Titan X）で約500フレーム/秒の処理能力を持ち、約1 GBのストレージを必要とし、未整列動画に対して効率的な密な予測を実現。
エンドツーエンドの訓練とCDC層の微調整は、3D ConvNetsの特徴を固定するより、時間的ダイナミクスの識別性が高い。
細粒度のフレーム予測は、コースなセグメント提案から開始しても、境界の精密な refinement を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。