QUICK REVIEW

[論文レビュー] ExCL: Extractive Clip Localization Using Natural Language Descriptions

Soham Ghosh, Anuva Agarwal|arXiv (Cornell University)|Apr 4, 2019

Video Analysis and Summarization被引用数 78

ひとこと要約

ExCL は自然言語クエリから開始フレームと終了フレームを直接推定するエクストラクティブな方法で、クロスモーダル相互作用を学習します。従来のランキングベース手法より TACoS と ActivityNet で優位性を示し、Charades-STA で同等レベルにマッチします。3つのスパン予測子のバリエーションをモデル化し、分類と回帰の両方の目的を使用します。

ABSTRACT

The task of retrieving clips within videos based on a given natural language query requires cross-modal reasoning over multiple frames. Prior approaches such as sliding window classifiers are inefficient, while text-clip similarity driven ranking-based approaches such as segment proposal networks are far more complicated. In order to select the most relevant video clip corresponding to the given text description, we propose a novel extractive approach that predicts the start and end frames by leveraging cross-modal interactions between the text and video - this removes the need to retrieve and re-rank multiple proposal segments. Using recurrent networks we encode the two modalities into a joint representation which is then used in different variants of start-end frame predictor networks. Through extensive experimentation and ablative analysis, we demonstrate that our simple and elegant approach significantly outperforms state of the art on two datasets and has comparable performance on a third.

研究の動機と目的

排名ベースのアプローチに依存する固定候補クリップを超えた抽出的クリップ局在化を動機づける。
テキスト-映像の相互作用から開始フレームと終了フレームを直接予測するモジュール型のクロスモーダルフレームワークを提案する。
多様なデータセットにわたる異なるスパン予測子アーキテクチャと学習目的を評価する。
時間的文脈を持つ抽出的モデルは強い性能を示し、データセット間で一般化する。

提案手法

GloVe 埋め込みを用いた双方向 LSTM でテキストをエンコードして文 embedding を取得する。
I3D features 上の双方向 LSTM でビデオをエンコードし、時間的文脈を捉える。
各フレームごとの開始/終了スコアを3つのスパン予測子バリアント（MLP、Tied-LSTM、Conditioned-LSTM）で計算する。
分類損失（softmax 正規化された開始/終了確率）または回帰損失（softmax 分布に対する期待値）で学習する。
回帰の場合、end|start を mask された logits の SoftMax でモデル化し end >= start を保証し、予測として開始/終了時刻の期待値を用いる。

実験結果

リサーチクエスチョン

RQ1抽出的でエンドツーエンドのモデルは、複数の提案をランキングせずに自然言語クエリで記述された正確なビデオクリップを定位できるか。
RQ2異なるクロスモーダルのスパン予測子アーキテクチャは、さまざまなデータセットで局在精度にどのような影響を与えるか。
RQ3正確な時間的局在化のために分類目的より回帰目的が有利か。
RQ4ビデオ長さや語彙が異なるデータセットでモデルはどのように性能を発揮するか。
RQ5ビデオ LSTM エンコーダを含めることは性能にどのような影響を与えるか。

主な発見

Dataset	IoU=0.3	IoU=0.5	IoU=0.7
TACoS	22.6	12.6	5.1
TACoS	42.0	25.0	12.3
TACoS	41.9	25.5	13.6
TACoS	41.7	26.0	12.9
TACoS	44.2	28.0	14.6
TACoS	44.4	27.8	14.6
TACoS	26.2	11.9	4.8
TACoS	45.2	27.5	12.9
TACoS	41.4	24.8	11.4
TACoS	42.2	27.2	11.7
TACoS	45.5	28.0	13.8
TACoS	42.3	27.3	12.5
Charades-STA	55.4	30.4	12.1
Charades-STA	64.7	43.8	23.0
Charades-STA	64.2	43.9	23.4
Charades-STA	64.6	41.5	23.1
Charades-STA	65.1	44.1	23.4
Charades-STA	61.4	41.8	22.4
ActivityNet	42.5	23.8	12.1
ActivityNet	60.7	40.9	23.4
ActivityNet	60.7	40.9	23.4
ActivityNet	60.4	40.5	23.1
ActivityNet	61.1	41.3	23.4
ActivityNet	62.1	41.6	23.9
ActivityNet	48.4	27.0	11.0
ActivityNet	63.0	43.6	23.6
ActivityNet	61.5	42.7	23.4
ActivityNet	61.5	41.9	23.3
ActivityNet	62.3	42.7	24.1
ActivityNet	61.4	41.7	22.4

抽出的モデルは TACoS と ActivityNet において従来のランキングベースのベースラインを大幅に上回る。
ビデオ LSTM の組み込みは性能を大幅に向上させ、再帰的エンコードを用いるスパン予測子（特に tied LSTM）はデータセットを跨いで強い結果を示す。
回帰学習は分類と比較して同等かやや優れた結果を提供し、情報の喪失は見られない。
ビデオ LSTM がない場合、跨モーダル相互作用を捉えるには再帰的スパン予測子が不可欠。
Tied-LSTM スパン予測子は一般にデータセットや設定を問わず最良またはほぼ最良の結果を提供する。
特に TACoS は時間的な高精度要件のために最も挑戦的なベンチマークであり続ける。）

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。