QUICK REVIEW

[論文レビュー] Local-Global Video-Text Interactions for Temporal Grounding

Jonghwan Mun, Minsu Cho|arXiv (Cornell University)|Apr 16, 2020

Multimodal Machine Learning Applications参考文献 36被引用数 27

ひとこと要約

本稿では、クエリから意味的フレーズを抽出し、複数レベルの局所的・包括的ビデオ・テキスト相互作用をモデル化することで、時系列のテキストから動画へのグランドインゴングを回帰ベースで行う手法を提案する。順序付きクエリアテンション、セグメントレベルの統合、および局所的／包括的コンテキストの共同モデリングを活用することで、最先端の性能を達成し、Charades-STA では Recall@tIoU=0.5 で 7.44% 向上、ActivityNet Captions では 4.61% 向上した。

ABSTRACT

This paper addresses the problem of text-to-video temporal grounding, which aims to identify the time interval in a video semantically relevant to a text query. We tackle this problem using a novel regression-based model that learns to extract a collection of mid-level features for semantic phrases in a text query, which corresponds to important semantic entities described in the query (e.g., actors, objects, and actions), and reflect bi-modal interactions between the linguistic features of the query and the visual features of the video in multiple levels. The proposed method effectively predicts the target time interval by exploiting contextual information from local to global during bi-modal interactions. Through in-depth ablation studies, we find out that incorporating both local and global context in video and text interactions is crucial to the accurate grounding. Our experiment shows that the proposed method outperforms the state of the arts on Charades-STA and ActivityNet Captions datasets by large margins, 7.44\% and 4.61\% points at Recall@tIoU=0.5 metric, respectively. Code is available in https://github.com/JonghwanMun/LGI4temporalgrounding.

研究の動機と目的

既存のスキャン＆ローカライズ手法がグローバルなクエリ特徴に依存し、細粒度の意味的詳細を欠いているという限界を解決する。
複数の粒度でビデオセグメントと意味的フレーズの間の相互作用をモデル化することで、時系列のグランドインゴングの正確性を向上させる。
ビデオ・テキスト相互作用において、局所的（短距離）および包括的（長距離）コンテキストモデリングを明示的に組み込むことで、ローカライズを強化する。
より洗練された意味的意識を持つ統合的ビデオ・テキスト表現学習により、時間区間の回帰をより正確に実現する。
複数のエージェント、行動、オブジェクトを含む複雑なテキストクエリにおいて、意味的フレーズレベルの理解の重要性を示す。

提案手法

テキストクエリから個別の意味的フレーズ（例：エージェント、行動）の表現を抽出するための順序付きクエリアテンションネットワーク（SQAN）を導入する。
各意味的フレーズの言語的特徴を用いてビデオセグメントにアテンションを適用することで、セグメントレベルのモダリティ統合を実行する。
局所的コンテキストモデリングとして、マスク付き Non-Local 機構を備えた残差ブロックを適用し、注意を局所的な時間窓に制限することで、細粒度のアライメントを実現する。
包括的コンテキストモデリングとして Non-Local ブロックを用い、意味的フレーズとビデオセグメント間の長距離依存関係を捉える。
最終的な時間区間を回帰する前に、統合された特徴を時間的アテンションプーリングで集約する。
フレーズ抽出とローカライズを同時に最適化するため、クエリに依存するアテンションと回帰損失を組み合わせたマルチタスク損失を用いる。

実験結果

リサーチクエスチョン

RQ1ビデオ・テキスト相互作用における局所的および包括的コンテキストモデリングのモデル化が、時系列グランドインゴング性能に与える影響は何か？
RQ2クエリ全体を1つのグローバル表現として扱うのではなく、意味的フレーズを抽出することで、性能に与える影響は何か？
RQ3加算、連結、ハダマード積といった異なる統合操作が、言語的特徴と視覚的特徴のアライメントに与える影響は何か？
RQ4過剰分割を避けるために、効果的なグランドインゴングを実現するための意味的フレーズの最適数は何か？
RQ5ビデオ・テキスト相互作用パイプラインにおいて、モダリティ統合を実行する最適なタイミング（早期 vs. 後期）は何か？

主な発見

局所的および包括的コンテキストモデリングをビデオ・テキスト相互作用に組み込むことで、コンテキストモデリングなしのベースラインモデルに比べて16.48%の性能向上が達成された。
特徴統合にハダマード積を用いることで、加算や連結よりも優れた性能を発揮した。これは、ゲーティングのような挙動により関連する特徴を強調するためと推定される。
コンテキストモデリングの前に行う早期モダリティ統合が、後期統合よりも優れた性能を示し、早期の意味的意識に基づく相互作用の利点を示している。
Charades-STA では3つの意味的フレーズ、ActivityNet Captions では5つの意味的フレーズが最適であり、それ以上に増やすと過剰分割のため性能が低下した。
本稿の手法は、Charades-STA で Recall@tIoU=0.5 に 7.44% の絶対的向上、ActivityNet Captions では 4.61% の向上を達成し、最先端の性能を実現した。
定性的な分析から、LGI モデル全体は SQAN 唯一のバージョンよりもより正確な予測とより良いアテンションの局所化を実現しており、多段階相互作用の利点を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。