QUICK REVIEW

[論文レビュー] TVQA: Localized, Compositional Video Question Answering

Jie Lei, Licheng Yu|arXiv (Cornell University)|Sep 5, 2018

Multimodal Machine Learning Applications参考文献 37被引用数 47

ひとこと要約

TVQA は、60–90秒クリップの局所 grounding を備えた大規模なマルチモーダルデータセットを導入し、映像、字幕、構成的な質問を組み合わせる。マルチストリームモデルは強力なベースラインを達成するが、まだ人間のパフォーマンスには及ばない。

ABSTRACT

Recent years have witnessed an increasing interest in image-based question-answering (QA) tasks. However, due to data limitations, there has been much less work on video-based QA. In this paper, we present TVQA, a large-scale video QA dataset based on 6 popular TV shows. TVQA consists of 152,545 QA pairs from 21,793 clips, spanning over 460 hours of video. Questions are designed to be compositional in nature, requiring systems to jointly localize relevant moments within a clip, comprehend subtitle-based dialogue, and recognize relevant visual concepts. We provide analyses of this new dataset as well as several baselines and a multi-stream end-to-end trainable neural network framework for the TVQA task. The dataset is publicly available at http://tvqa.cs.unc.edu.

研究の動機と目的

長尺の動画クリップに整列した自然な対話を活用して、マルチモーダルな動画 QA を推進する。
局所化されたモーメントの特定と質問回答を評価するため、タイムスタンプ付き grounding を備えた大規模で現実的なデータセットを作成する。
視覚的文脈、検出された概念、字幕を統合して QA を行うモデリングを促進する。
TVQA タスクのベンチマークを確立するために、ベースラインモデルと学習可能なマルチストリームアーキテクチャを提供する。

提案手法

字幕と整列された書き起こしを含む60–90秒のテレビ番組クリップデータセットを構築する。
モーメント局在化の grounding 部分と5つの選択肢からなる構成的質問を収集する。
各フレームに対して Faster R-CNN による地域的ビジュアル特徴と 2048次元 ImageNet 特徴を抽出する。
テキストとビジュアルを BiLSTM でエンコードし、ストリーム間でコンテキスト-クエリ注意に基づく融合を適用する。
複数のコンテキストストリーム（字幕、映像領域、視覚概念）を融合し、max-pooled の BiLSTM ベースのスコアラーで質問に答える。
最長解答、リトリーバル、NNs、そして私たちのマルチストリームモデルなどのベースライン手法を示し、タイムスタンプ局所化の有無で評価する。）

実験結果

リサーチクエスチョン

RQ1マルチモーダルモデルは、ビデオと字幕を同時に用いてモ―メント grounding を伴う構成的な質問に答えられるか。
RQ2時間的局所化（タイムスタンプ）は、ビデオ質問ペアの QA パフォーマンスにどのように影響するか。
RQ3字幕、地域ビジュアル特徴、視覚概念の寄与は、複雑な TVQA 質問への回答においてどの程度か。
RQ4モデルは grounding TVQA タスクで人間のパフォーマンスにどれだけ近づけるか。

主な発見

方法	特徴	tsなし	tsあり
最長解答	-	30.22	30.22
Retrieval-GloVe	-	43.50	43.50
Our Q	-	43.50	43.50
Our S+Q	-	66.36	66.36
Our S+V+Q (reg)	reg (視覚概念)	68.48	68.48

TVQA は 21,793 クリップ、6 つのテレビ番組にわたる 152,545 の QA ペアを含み、総再生時間は約 461 時間。
質問は構成的で、60–90s のクリップ内で grounding を要し、 video と字幕の両方を使用する。
人間の正解率は、質問のみ（32.61%）から映像と字幕を使用（V と S および Q の両方で 89.41%）へ改善。
TF-IDF 字幕-質問対応だけでも強力なベースライン性能を示す（動画なしで最大 49.59%）。
字幕、地域ビジュアル特徴、視覚概念を用いたマルチストリームモデルが最も高い正確度を達成し、特にタイムスタンプ誘導の局所化で改善を示す。
局所化（タイムスタンプ）は、全体長クリップと比較して、モデルの QA パフォーマンスを一貫して向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。