QUICK REVIEW

[論文レビュー] iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering

Aman Chadha, Gurneet Arora|arXiv (Cornell University)|Nov 16, 2020

Multimodal Machine Learning Applications参考文献 66被引用数 24

ひとこと要約

iPerceiveは、文脈的ヒントを活用して出来事間の因果関係を推論することで、密度型動画キャプション（DVC）および動画質問応答（VideoQA）に常識的推論を統合するマルチモーダルでエンド・トゥ・エンドで学習可能なフレームワークを提案する。視覚的、音声的、言語的モダリティを統合し、自己教師付き因果損失を用いることで、ActivityNet Captions（7.87 METEOR）およびTVQA（76.97%の正答率）で最先端性能を達成し、ベースラインと比較して推論力および注視力が向上していることを示している。

ABSTRACT

Most prior art in visual understanding relies solely on analyzing the "what" (e.g., event recognition) and "where" (e.g., event localization), which in some cases, fails to describe correct contextual relationships between events or leads to incorrect underlying visual attention. Part of what defines us as human and fundamentally different from machines is our instinct to seek causality behind any association, say an event Y that happened as a direct result of event X. To this end, we propose iPerceive, a framework capable of understanding the "why" between events in a video by building a common-sense knowledge base using contextual cues to infer causal relationships between objects in the video. We demonstrate the effectiveness of our technique using the dense video captioning (DVC) and video question answering (VideoQA) tasks. Furthermore, while most prior work in DVC and VideoQA relies solely on visual information, other modalities such as audio and speech are vital for a human observer's perception of an environment. We formulate DVC and VideoQA tasks as machine translation problems that utilize multiple modalities. By evaluating the performance of iPerceive DVC and iPerceive VideoQA on the ActivityNet Captions and TVQA datasets respectively, we show that our approach furthers the state-of-the-art. Code and samples are available at: iperceive.amanchadha.com.

研究の動機と目的

現在の動画理解システムが『何』と『どこ』にのみ注目しているが、因果的推論によって『なぜ』をモデル化できないという限界を解消すること。
複数のモダリティからの文脈的ヒントを用いて共通の常識的知識ベースを構築することで、動画モデルにおける誤った観察バイアスを軽減すること。
視覚的、音声的、言語的信号をエンド・トゥ・エンド学習で統合することで、密度型動画キャプションおよび動画質問応答を向上させること。
常識的推論がモデルの認識を向上させ、より正確な出来事の局所化と言語生成を可能にすることを実証すること。

提案手法

iPerceiveは、文脈的損失を自己教師付き信号として用い、動画内の物体や出来事間の因果関係を推論することで、常識的知識ベースを構築する。
フレームワークは、視覚的、音声的、言語的モダリティを統合して、エンド・トゥ・エンドで学習可能なTransformerベースのアーキテクチャを採用し、出来事の局所化とキャプション生成を同時に最適化する。
常識的特徴は、出来事間の内在的関係をモデル化する因果的推論モジュールによって生成され、誤った共起パターンへの依存を低減する。
DVCでは、訓練時に真値の出来事提案を用いるが、エンド・トゥ・エンドで学習させ、言語的記述を時系列的に局所化された出来事と一致させる。
VideoQAでは、iPerceive DVCの密度型キャプションと常識的特徴を活用し、出来事間の関係に関する推論を要する質問に答える。
アブレーションスタディにより、エンド・トゥ・エンド学習と常識的推論の貢献度が、ActivityNet CaptionsおよびTVQAにおける制御実験を通じて検証されている。

実験結果

リサーチクエスチョン

RQ1因果関係をモデル化することで、常識的推論は出来事間の因果関係を考慮することにより、密度型動画キャプションの正確性と一貫性を向上させることができるか？
RQ2視覚のみのモデルと比較して、視覚的・音声的・言語的モダリティの統合は、動画理解における因果的認識をどの程度向上させるか？
RQ3エンド・トゥ・エンド学習は、DVCにおける動画セグメントとその言語的記述との整合性をどの程度向上させるか？
RQ4因果的推論を組み込むことで、共起バイアスに起因する誤った関連性が動画理解タスクで低減されるか？
RQ5常識的特徴は、視覚認識をはるかに超える推論を要する動画質問応答タスクの性能を向上させることができるか？

主な発見

iPerceive DVCは、ActivityNet Captionsの検証セットで7.87のMETEORスコアを達成し、前回のSOTAを0.98ポイント上回った。
全モダリティ統合により、iPerceive DVCは12.27 BLEU@4および7.87 METEORに達し、マルチモーダル入力の利点を示した。
iPerceive VideoQAは、TVQAのテストセットで76.97%の正答率を達成し、前回のSOTA（74.20%）を2.77ポイント上回った。
アブレーションスタディにより、常識的推論とエンド・トゥ・エンド学習を組み合わせた場合が最高のパフォーマンス（7.87 METEOR）を示し、両者の相乗効果を確認した。
iPerceive DVCが生成する密度型キャプションと常識的特徴の導入により、ベースラインモデルと比較してVideoQAの正答率が2.77ポイント向上した。
定性的分析により、iPerceiveは因果的文脈をモデル化することで、関係のない物体に誤って注視する認知的誤りを低減していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。