QUICK REVIEW

[論文レビュー] An End-to-end 3D Convolutional Neural Network for Action Detection and Segmentation in Videos

Rui Hou, Chen Chen|arXiv (Cornell University)|Nov 30, 2017

Human Pose and Action Recognition参考文献 1被引用数 41

ひとこと要約

本稿では、動画の行動検出とセグメンテーションのためのエンドツーエンド3次元畳み込みニューラルネットワーク（3D CNN）フレームワークを提案し、2つのアプローチを導入する：上位から下位のチューブプロポーザルに基づく検出のためのTube-CNN（T-CNN）と、下位から上位のピクセル単位の行動セグメンテーションのためのSegmentation-Driven CNN（ST-CNN）。ST-CNNは、DAVISで77.6％の平均Jaccardインデックスを達成し、コントラストが低く、動的な動画においても、先行手法を上回る最先端の性能を発揮した。

ABSTRACT

In this paper, we propose an end-to-end 3D CNN for action detection and segmentation in videos. The proposed architecture is a unified deep network that is able to recognize and localize action based on 3D convolution features. A video is first divided into equal length clips and next for each clip a set of tube proposals are generated based on 3D CNN features. Finally, the tube proposals of different clips are linked together and spatio-temporal action detection is performed using these linked video proposals. This top-down action detection approach explicitly relies on a set of good tube proposals to perform well and training the bounding box regression usually requires a large number of annotated samples. To remedy this, we further extend the 3D CNN to an encoder-decoder structure and formulate the localization problem as action segmentation. The foreground regions (i.e. action regions) for each frame are segmented first then the segmented foreground maps are used to generate the bounding boxes. This bottom-up approach effectively avoids tube proposal generation by leveraging the pixel-wise annotations of segmentation. The segmentation framework also can be readily applied to a general problem of video object segmentation. Extensive experiments on several video datasets demonstrate the superior performance of our approach for action detection and video object segmentation compared to the state-of-the-arts.

研究の動機と目的

深層学習を用いた動画における空間的・時間的行動検出の課題に取り組むこと、特に計算コストの高さと大規模なアノテート済み動画データの不足に起因するものである。
アンカーボックスに依存するトップダウン検出手法の限界を克服し、回帰に大量のアノテート済みバウンディングボックスを必要としないこと。
粗いバウンディングボックスプロポーザルの代わりに、密なピクセル単位のセグメンテーションマップを用いることで、局所化の正確性を向上させること。
行動認識と局所化の両方のための空間的・時間的特徴を同時に学習する統合的でエンドツーエンドの3次元畳み込みニューラルネットワーク（3D CNN）フレームワークを構築すること。
特に運動ブラーと低コントラストを伴う複雑なシナリオにおいて、DAVIS や THUMOS14 といったベンチマークデータセットで優れた性能を示すこと。

提案手法

入力動画を等長のクリップに分割し、3次元畳み込みニューラルネットワーク（3D CNN）特徴量から3次元チューブプロポーザルを生成するチューブプロポーザルネットワーク（TPN）を用いる。
隣接するクリップからのチューブプロポーザルを、アクティビティスコアと空間的・時間的オーバーラップを用いて連結し、完全な行動チューブを形成する。
関心領域（ToI）プーリング層を用いて、連結されたチューブから固定サイズの特徴量を抽出し、行動分類に用いる。
エンコーダ・デコーダ型の3次元畳み込みニューラルネットワーク（3D CNN）アーキテクチャを用い、エンドツーエンドのピクセル単位の行動セグメンテーションを実現する。チューブプロポーザル生成の代わりに、密なフォアグラウンドマップ予測を実装する。
セグメンテーションマップを用いてバウンディングボックスを生成し、アンカープライオリティに依存しないボトムアップ検出戦略を実現する。
ST-CNNバージョンは1回の順伝播処理でクリップを処理でき、2段階パイプラインを排除することでT-CNNに比べて3倍速くなった。

実験結果

リサーチクエスチョン

RQ1アンカープライオリティに依存せず、フレームレベルのプロポーザル生成を伴わない統合的3次元畳み込みニューラルネットワーク（3D CNN）フレームワークが、動画におけるエンドツーエンドの行動検出とセグメンテーションを達成可能か？
RQ2ピクセル単位のセグメンテーションに基づくボトムアップ手法と、チューブプロポーザルに依存するトップダウン手法を比較した場合、局所化の正確性と視覚的変動へのロバスト性において、どちらが優れているか？
RQ3エンコーダ・デコーダ型3次元畳み込みニューラルネットワーク（3D CNN）アーキテクチャが、最小限の監視情報で密な動画セグメンテーションのための空間的・時間的表現を効果的に学習できるか？
RQ42段階（T-CNN）と1段階（ST-CNN）の検出パイプラインにおける、3次元畳み込みニューラルネットワーク（3D CNN）ベースの行動検出における計算効率のトレードオフは何か？
RQ5本手法は、コントラストが低く、運動ブラー、または小規模な物体を含む挑戦的な動画シーケンスにおいて、最先端の手法と比較してどのように性能を発揮するか？

主な発見

提案されたST-CNN手法は、DAVISデータセットで77.6％の平均Jaccardインデックスを達成し、ARP、LVO、FSEGを含むすべての先行手法を上回った。
Blackswan、Scooter-Black、Car-Roundaboutの挑戦的シーケンスにおいて、最高のJaccardインデックスを記録し、低コントラストおよび動的なシーンにおいて優れた性能を示した。
定性的な比較において、他の手法が見逃す細かいディテール（リム、脚、尾など）を効果的にセグメンテーションできた。
ST-CNNモデルはT-CNNに比べ3倍速く、40フレームの動画を処理するのにわずか0.7秒で完了した。これは、1段階の推論パイプラインのおかげである。
DAVISでは95.2％のリCALLと94.7％のF-measureを達成し、物体の動きや隠蔽に対しても高い検出精度とロバスト性を示した。
時間的安定性が高く、衰退スコアがたった2.3にとどまり、大多数のベースラインと比較して顕著に低かった。これは、フレーム間で一貫したセグメンテーションが実現できていることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。