QUICK REVIEW

[論文レビュー] Tripping through time: Efficient Localization of Activities in Videos

Meera Hahn, Asim Kadav|arXiv (Cornell University)|Apr 22, 2019

Multimodal Machine Learning Applications参考文献 20被引用数 41

ひとこと要約

TripNetは、ゲート付き注意表現と強化学習ベースの探索を用いて、未編修動画の瞬間を自然言語クエリに基づいて局所化し、動画の32-41%のみを探索することで、高い精度を達成します。

ABSTRACT

Localizing moments in untrimmed videos via language queries is a new and interesting task that requires the ability to accurately ground language into video. Previous works have approached this task by processing the entire video, often more than once, to localize relevant activities. In the real world applications of this approach, such as video surveillance, efficiency is a key system requirement. In this paper, we present TripNet, an end-to-end system that uses a gated attention architecture to model fine-grained textual and visual representations in order to align text and video content. Furthermore, TripNet uses reinforcement learning to efficiently localize relevant activity clips in long videos, by learning how to intelligently skip around the video. It extracts visual features for few frames to perform activity classification. In our evaluation over Charades-STA, ActivityNet Captions and the TACoS dataset, we find that TripNet achieves high accuracy and saves processing time by only looking at 32-41% of the entire video.

研究の動機と目的

長く未編集の動画において、自然言語で記述された行動を時間的に局在化する課題に対処する。
言語を細粒度の動画特徴に結びつけるエンドツーエンドのフレームワークを開発する。
非本質的なフレームを賢くスキップするポリシーを学習して効率を向上させる。

提案手法

言語クエリを動画特徴と整列させるゲート付き注意状態表現を備えたTripNetを提案する。
固定サイズの候補ウィンドウを動画上で動かすポリシーを学習するため、actor-critic 強化学習フレームワーク（A3C）を用いる。
事前定義されたフレームステップでウィンドウを跳ぶ離散アクション空間と、現在のウィンドウを出力するTERMINATEアクションを定義する。
IOUの改善とステップ数の小さなペナルティを組み合わせた報酬を組み込み、効率性を促進する。
視覚とテキストモダリティがポリシー学習の前に統合されるよう、エンドツーエンドでモデルをトレーニングする。
ゲート付き注意のTripNetを、結合ベースのTripNet-Concatと比較して、ゲート付き注意の利点を実証する。

実験結果

リサーチクエスチョン

RQ1TripNetは長い動画の中で自然言語で記述された瞬間を正確に局在化できるか？
RQ2ゲート付き注意の統合モデルは、単純な特徴の連結よりもグラウンディング精度を向上させるか？
RQ3強力な局在性能を達成しつつ、どの程度の動画をスキップできるか？
RQ4標準ベンチマークにおける精度と効率の観点で、TripNetは従来のTALL手法とどう比較されるか？

主な発見

TripNetはCharades-STA、ActivityNet Captions、TACoSデータセットで最先端または競争力のある精度を達成します。
TripNetLocalizesは平均して動画の32-41%のみを検査しながら瞬間を局在化し、効率性を大幅に向上させます。
TripNet-GA（gated attention）は TripNet-Concat を上回り、多モーダルなゲート付き統合の有効性を示しています。
Charades-STAとTACoSではTripNetは従来手法を上回り、ActivityNet Captionsでは最先端と同等の性能です。
このアプローチは、網羅的なフレームごとの分析を回避することにより、全体の動画処理時間を削減しつつ、高い局在精度を維持します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。