QUICK REVIEW

[論文レビュー] To Find Where You Talk: Temporal Sentence Localization in Video with Attention Based Location Regression

Yitian Yuan, Tao Mei|arXiv (Cornell University)|Apr 19, 2018

Multimodal Machine Learning Applications参考文献 26被引用数 27

ひとこと要約

本稿では、非トリムド動画における時系列文定位のためのエンドツーエンド型アテンションベースの位置回帰（ABLR）モデルを提案する。双方向LSTMとマルチモーダル相互注意を活用することで、動画のグローバルな文脈を保持するとともに、文に特化したキーポイントを強調し、正確かつ効率的な時系列境界の回帰を実現する。ABLRは、ActivityNet Captionsで最高の競合手法よりも相対的に43.4%の性能向上を達成し、従来手法よりも15倍高速な推論を実現した。

ABSTRACT

Given an untrimmed video and a sentence description, temporal sentence localization aims to automatically determine the start and end points of the described sentence within the video. The problem is challenging as it needs the understanding of both video and sentence. Existing research predominantly employs a costly "scan and localize" framework, neglecting the global video context and the specific details within sentences which play as critical issues for this problem. In this paper, we propose a novel Attention Based Location Regression (ABLR) approach to solve the temporal sentence localization from a global perspective. Specifically, to preserve the context information, ABLR first encodes both video and sentence via Bidirectional LSTM networks. Then, a multi-modal co-attention mechanism is introduced to generate not only video attention which reflects the global video structure, but also sentence attention which highlights the crucial details for temporal localization. Finally, a novel attention based location regression network is designed to predict the temporal coordinates of sentence query from the previous attention. ABLR is jointly trained in an end-to-end manner. Comprehensive experiments on ActivityNet Captions and TACoS datasets demonstrate both the effectiveness and the efficiency of the proposed ABLR approach.

研究の動機と目的

スライディングウィンドウによるサンプリングに依存せず、直接時系列境界を予測することで、非トリムド動画内における自然言語文の局所化という課題に取り組む。
局所化中に、動画のグローバルな時間的構造を保持し、全系列にわたる文脈を維持する。
マルチモーダル相互注意機構を用いて、文のクエリ内の意味的に重要なフレーズに注目することで、局所化の精度を向上させる。
密なクリップサンプリングを回避することで、1回の動画エンコーディングで済ませる構成を採用し、計算効率を向上させる。

提案手法

双方向LSTMを用いて、動画クリップ特徴量と文の語順列をエンコードし、前向きおよび後向きの文脈情報を捉える。
マルチモーダル相互注意機構により、クロスモーダルな相互作用をモデル化し、動画アテンション（グローバル構造を反映）と文アテンション（キーフレーズを強調）を生成する。
動画アテンションは、文クエリと動画セグメントの整合性に基づき、グローバルな時間的依存関係を符号化する。
文アテンションは、正確な局所化を導くために、意味的に関連のある語やフレーズに注目する。
アテンションベースの位置予測ネットワークが、相互注意特徴量から直接開始時刻および終了時刻を回帰し、後処理を回避する。
モデル全体をエンドツーエンドで学習し、特徴エンコーディング、アテンション学習、境界回帰の最適化を同時に最適化する。

実験結果

リサーチクエスチョン

RQ1密なクリップ処理を避けることで、従来の「スキャンして局所化する」アプローチに比べ、エンドツーエンドモデルが時系列文定位で優れた性能を発揮できるか。
RQ2マルチモーダル相互注意は、文に特化したキーポイントに注目しながらも、動画のグローバルな文脈をどの程度保持できるか。
RQ3特徴マッチングベースラインと比較して、アテンションベースの回帰は、局所化精度をどの程度向上させるか。
RQ4長時間の非トリムド動画に適用した場合、提案手法は計算効率にどの程度スケーリングできるか。
RQ5ABLRはActivityNet Captionsでは優れた性能を発揮するが、TACoSでは高域IoU閾値で性能が劣る理由は何か。

主な発見

ActivityNet Captionsデータセットにおいて、ABLRは最良のベースライン（ACRN）に対して平均平均精度（mAP）で相対的に43.4%の向上を達成した（IoU=0.5）。
TACoSでは、IoU閾値が0.3および0.4の低い水準ではACRNを上回ったが、IoU=0.5では、類似シーンの動画におけるアテンション分布が平坦になるため、性能が劣化した。
ABLR full-aw（アテンション重みベースの回帰）はActivityNet Captionsで優れた性能を示したが、ABLR full-af（特徴ベースの回帰）はTACoSで優れた性能を示した。これは、曖昧なシーンにおいて入力の識別性の重要性を示している。
ABLRは、ActivityNet Captionsでは1文あたり平均0.02秒、TACoSでは0.15秒の推論時間を短縮し、ACRNに比べ15倍、MCNおよびCTRLに比べ4〜15倍の高速化を達成した。
モデルの効率性は、各動画をエンコーディングと回帰の2回のみ処理することで実現されており、密なクリップサンプリングに起因する重複計算を回避している。
アブレーションスタディの結果、動画および文の相互注意の両方が不可欠であることが確認され、いずれかを削除すると顕著な性能低下が生じた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。