Skip to main content
QUICK REVIEW

[論文レビュー] Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language

Songyang Zhang, Houwen Peng|arXiv (Cornell University)|Dec 8, 2019
Multimodal Machine Learning Applications参考文献 36被引用数 42
ひとこと要約

この論文は、開始-終了マップの2D上で時間的関係をモデリングすることでモーメントを局所化し、追加の後処理なしで Charades-STA, ActivityNet Captions, TACoS で最先端の結果を達成する。

ABSTRACT

We address the problem of retrieving a specific moment from an untrimmed video by a query sentence. This is a challenging problem because a target moment may take place in relations to other temporal moments in the untrimmed video. Existing methods cannot tackle this challenge well since they consider temporal moments individually and neglect the temporal dependencies. In this paper, we model the temporal relations between video moments by a two-dimensional map, where one dimension indicates the starting time of a moment and the other indicates the end time. This 2D temporal map can cover diverse video moments with different lengths, while representing their adjacent relations. Based on the 2D map, we propose a Temporal Adjacent Network (2D-TAN), a single-shot framework for moment localization. It is capable of encoding the adjacent temporal relation, while learning discriminative features for matching video moments with referring expressions. We evaluate the proposed 2D-TAN on three challenging benchmarks, i.e., Charades-STA, ActivityNet Captions, and TACoS, where our 2D-TAN outperforms the state-of-the-art.

研究の動機と目的

  • 改善された文脈モデリングを用いて自然言語で記述された未整形ビデオのモーメントを局所化する動機。
  • 隣接する時間的関係を候補モーメントの2Dマップを介して捉える表現を提案する。
  • 融合されたビデオ-言語特徴を用いてモーメント候補を直接スコアリングするシングルショットネットワークを構築する。
  • モーメント候補間の明示的な文脈モデリングが局所化精度を向上させることを示す。

提案手法

  • クエリをGloVe embeddings 上で3層LSTMを用いて表現し f^S を得る。
  • クリップをまたいでプーリングして開始-終了インデックス (a,b) を特徴 f^V とともに形成し、2D 時間特徴マップ F^M を抽出し、F^M を R^{N x N x d^V} にする。
  • 計算量を削減するために G(a,b) によって制御されたスパースサンプリング戦略を用いてコンパクトなモーメント候補集合を選択する。
  • 共通空間に射影して Hadamard 積と Frobenius 正規化を適用してビデオ-言語特徴を融合する。式は F = ||(w^S f^S 1^T) ⊙ (W^M F^M)||_F。
  • F 上に L 層の 2D 畳み込み Temporal Adjacent Network を用いて隣接するモーメント関係を捉えることで文脈をモデル化する。
  • グランドトゥルース IoU o_i から導出されたスケーリングされた IoU 監督 y_i を用い、C 個の有効候補に対して二値交差エントロピー損失で訓練する。

実験結果

リサーチクエスチョン

  • RQ12D テンポラルマップは、自然言語に基づく局所化のための候補モーメント間の依存関係を効果的にモデル化できるか。
  • RQ2隣接モーメントの明示的な文脈モデリングは、視覚的に似た候補の識別性を向上させるか。
  • RQ3提案されたスパース候補サンプリングは、密集列挙と比較して性能と効率にどう影響するか。

主な発見

  • 2D-TAN は Charades-STA, ActivityNet Captions, TACoS の複数の指標で最先端と競合する性能を達成。
  • TACoS では、Rank1@0.5 および Rank5@0.5 で ACL-K および TGN をそれぞれ 5 点、14 点以上上回る。
  • 大規模データセット ActivityNet Captions では、IoU@0.5 および IoU@0.7 でトップ手法 CMIN を上回る。
  • より大きな受容野は深いまたは大きなカーネルによって性能が向上し、受容野が sufficiently 大きくなると飽和する。
  • スパースサンプリングは候補数を減らしつつ dense enumeration と同程度の性能を維持し、効率を向上させる。
  • スライディングウィンドウ法と比較して、2D-TAN はモーメント候補間の時間的依存性をモデリングする利点があり、独立して扱うのではない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。