QUICK REVIEW

[論文レビュー] Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks

Alberto Montes, Amaia Salvador|arXiv (Cornell University)|Aug 29, 2016

Human Pose and Action Recognition参考文献 11被引用数 82

ひとこと要約

本稿では、3D-CNN特徴量（C3D）をLSTMユニットを備えたRNNに供給することで、非トリムド動画における時系列アクティビティ検出のための単純ながら効果的なパイプラインを提案する。分類では0.5874 mAP、検出では0.2237 mAPの成績を、ActivityNet Challenge 2016で達成し、平滑化としきい値処理による後処理によって局所化精度が向上した。

ABSTRACT

This thesis explore different approaches using Convolutional and Recurrent Neural Networks to classify and temporally localize activities on videos, furthermore an implementation to achieve it has been proposed. As the first step, features have been extracted from video frames using an state of the art 3D Convolutional Neural Network. This features are fed in a recurrent neural network that solves the activity classification and temporally location tasks in a simple and flexible way. Different architectures and configurations have been tested in order to achieve the best performance and learning of the video dataset provided. In addition it has been studied different kind of post processing over the trained network's output to achieve a better results on the temporally localization of activities on the videos. The results provided by the neural network developed in this thesis have been submitted to the ActivityNet Challenge 2016 of the CVPR, achieving competitive results using a simple and flexible architecture.

研究の動機と目的

非トリムド動画において、事前にセグメンテーションされていない動画のアクティビティを分類し、時系列的に局所化する課題に対処すること。
空間的および時間的特徴を動画シーケンスから活用する、単純でエンドツーエンドで学習可能なフレームワークを構築すること。
RNN出力シーケンスを精緻化する後処理技術を用いて、検出性能を向上させること。
分類および時系列局所化の両タスクにおいて、ActivityNet Challenge 2016ベンチマークで競争力のある結果を達成すること。

提案手法

非トリムド動画の16フレームクリップから4096次元のC3D fc6特徴量を抽出し、入力用に171×128にリサイズする。
C3D特徴量のシーケンスを、ドロップアウト（p=0.5）を用いたスタックドLSTMネットワークに供給し、シーケンスモデリングと時間的依存性の学習を行う。
各16フレームクリップのクラス確率を出力するため、最終層にソフトマックス層を用いる。クラス数はK+1（背景クラスを含む）。
時間的なノイズを低減するために、予測されたアクティビティ確率に平均フィルタ（k=5）を適用し、平滑化する。
しきい値γを適用し、γを超える確率を持つクリップのみを保持し、予測クラスにラベル付ける。
最終的な動画レベルのクラスを、全クリップにおける平均確率が最大となるクラスに割り当てる。

実験結果

リサーチクエスチョン

RQ1事前に抽出されたC3D特徴量を用いた単純なRNNアーキテクチャは、動画分類および時系列アクティビティ検出の両方で競争力のある性能を達成できるか？
RQ2平滑化としきい値処理を伴う後処理は、アクティビティ予測の局所化精度にどのように影響するか？
RQ3非トリムド動画のアクティビティ検出において、性能と一般化性能のバランスを取るために最適なRNNアーキテクチャ（層数およびユニット数）は何か？
RQ4データセットにおけるクラス不均衡はモデル学習にどのように影響し、その影響を軽減する戦略は何か？

主な発見

1層512-LSTM構成が、過学習の低減により分類mAP 0.5938を達成し、深層アーキテクチャを上回った。
3x1024-LSTMモデルが、トップ3予測精度を示すHit@3スコア0.7437を達成し、優れた性能を示した。
平均フィルタ（k=5）としきい値γ=0.2を用いた後処理により、検出mAPが0.22513に向上し、試行した設定の中で最高となった。
最適な後処理パラメータはγ=0.2とk=5であり、局所化における適合率と再現率のバランスが最良であった。
ActivityNet 2016テストセットでは検出mAP 0.2237を達成し、時系列局所化タスクにおいて強力な性能を示した。
結果から、C3D特徴量とRNNを組み合わせた単純なパイプラインですら、エンドツーエンド学習を経ずに競争力のある結果を達成可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。