QUICK REVIEW

[論文レビュー] Temporal Context Network for Activity Localization in Videos

Xiyang Dai, Bharat Singh|arXiv (Cornell University)|Aug 8, 2017

Human Pose and Action Recognition参考文献 33被引用数 66

ひとこと要約

Temporal Context Network (TCN) は、より大きなスケールからの文脈を用いて temporally proposed segments をランク付けし、ActivityNet と THUMOS14 で最先端の結果を達成する。明示的なマルチスケール文脈サンプリングと時間的畳み込みによる。

ABSTRACT

We present a Temporal Context Network (TCN) for precise temporal localization of human activities. Similar to the Faster-RCNN architecture, proposals are placed at equal intervals in a video which span multiple temporal scales. We propose a novel representation for ranking these proposals. Since pooling features only inside a segment is not sufficient to predict activity boundaries, we construct a representation which explicitly captures context around a proposal for ranking it. For each temporal segment inside a proposal, features are uniformly sampled at a pair of scales and are input to a temporal convolutional neural network for classification. After ranking proposals, non-maximum suppression is applied and classification is performed to obtain final detections. TCN outperforms state-of-the-art methods on the ActivityNet dataset and the THUMOS14 dataset.

研究の動機と目的

未編集動画における人間の活動の正確な時系列局在を動機づける。
提案境界を超えた時系列文脈を組み込む提案ランカーメカニズムを開発する。
スケールを跨ぐ文脈サンプリングによる2ストリーム特徴表現を活用する。
提案ランカーと分類段を統合して最終検出を得る。
ActivityNet と THUMOS14 における既存手法よりの改善を示す。

提案手法

提案を等間隔かつ複数の時間スケールで配置し、潜在的な活動領域をカバーする。
提案内と次の大きいスケールから特徴をサンプリングし、これらを結合して文脈認識特徴表現を構築する。
組み合わさったスケール特徴に対して時間的畳み込みを適用し、提案の前景/背景を予測する。
提案特徴に対してバイリニアプーリングを用い堅牢なアクション分類を行い、その後符号付き平方根とL2正規化を適用する。
提案ランカーと最終分類器の両方にクロスエントロピー損失を使用し、バランスのとれたミニバッチで学習する。
非最大抑制を用いて検出を最終化して評価する。

実験結果

リサーチクエスチョン

RQ1より大きなスケールからの時系列文脈を取り入れることは、時系列アクティビティ提案のランキングを改善するか？
RQ2文脈ウィンドウのスケールは局在性能と IoU 閾値ごとの mAP にどのように影響するか？
RQ3文脈ベースのランキングを用いた提案ベースの検出システムは、未編集動画に対して LSTM ベースやグローバル特徴アプローチを上回ることができるか？
RQ4ActivityNet と THUMOS14 における検出性能に対する提案数の影響は？

主な発見

手法	mAP@.5	mAP@.75	mAP@.95	注記
Ours (ActivityNet 20 proposals)	37.49	23.47	4.47	Evaluation server result
Without Context (ActivityNet, top-20 proposals)	15.91	3.11	0.13	Context not used in ranking

時系列文脈は特に高い IoU 閾値で提案ランキングを大きく改善する。
文脈ベースの提案は文脈なしと比較して複数の閾値でより高い mAP を示す（ActivityNet バリデーション）：mAP@.5=36.17, mAP@.75=21.12, mAP@.95=3.89 。文脈なしではそれぞれ 15.91, 3.11, 0.13。
文脈スケールが約 2 のとき最適な性能を示し、それより大きいまたは小さいスケールは有効性を低下させる。
ActivityNet 評価サーバーでのトップパフォーマンス結果：mAP@.5=37.49, mAP@.75=23.47, mAP@.95=4.47。
THUMOS14 では、本手法が CDC と組み合わせた場合平均リコールを高め、検出性能を改善し、いくつかのベースラインを上回る。
文脈を用いた提案ランカーは、従来の提案手法（例：DAPs、SCNN）をリコールと検出指標の両方で上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。