QUICK REVIEW

[論文レビュー] Motion-Appearance Co-Memory Networks for Video Question Answering

Jiyang Gao, Runzhou Ge|arXiv (Cornell University)|Mar 29, 2018

Multimodal Machine Learning Applications参考文献 39被引用数 23

ひとこと要約

本稿では、動画質問応答のためのモーション・アピアランス共同メモリネットワークを提案する。このモデルは、共通メモリアテンション機構を用いてモーションとアピアランス特徴を統合的にモデリングし、時間的畳み込み・デコンボリューションネットワークを用いて多段階の文脈的事実を生成し、質問に応じた推論を可能にする動的ファクトアンサンブル手法を採用する。モデルはTGIF-QAデータセットにおいて最先端の性能を達成し、4つのタスクすべてで先行手法を上回り、アクション認識タスクで68.2%の正確性、カウントタスクで4.10のMSEを記録した。

ABSTRACT

Video Question Answering (QA) is an important task in understanding video temporal structure. We observe that there are three unique attributes of video QA compared with image QA: (1) it deals with long sequences of images containing richer information not only in quantity but also in variety; (2) motion and appearance information are usually correlated with each other and able to provide useful attention cues to the other; (3) different questions require different number of frames to infer the answer. Based these observations, we propose a motion-appearance comemory network for video QA. Our networks are built on concepts from Dynamic Memory Network (DMN) and introduces new mechanisms for video QA. Specifically, there are three salient aspects: (1) a co-memory attention mechanism that utilizes cues from both motion and appearance to generate attention; (2) a temporal conv-deconv network to generate multi-level contextual facts; (3) a dynamic fact ensemble method to construct temporal representation dynamically for different questions. We evaluate our method on TGIF-QA dataset, and the results outperform state-of-the-art significantly on all four tasks of TGIF-QA.

研究の動機と目的

静的画像をはるかに超える豊富な時空間的情報を含む長時間の動画シーケンスをモデル化する必要がある動画質問応答の課題に対処すること。
各モodalが相手の注意を引き出す手がかりを提供するため、動画QAにおけるモーションとアピアランス特徴の相関関係を活用すること。
質問の種別（例：1フレーム対象 vs. 長時間シーケンス対象）に応じて関連フレーム数を動的に調整することで、動画フレーム上での動的推論を可能にすること。
多段階の文脈的事実を統合し、動的メモリ更新を施すことで、動画シーケンス上の推論を向上させること。

提案手法

モーションの手がかりを用いてアピアランスのためのアテンションを生成し、逆にアピアランスの手がかりを用いてモーションのためのアテンションを生成する共同メモリアテンション機構を提案。これにより、両モダリティの統合的モデリングが可能になる。
時間的畳み込みおよびデコンボリューションネットワークを用いて、モーションおよびアピアランス特徴から多段階の文脈的事実を生成。時間的分解能を保持しつつ、多様な文脈を捉える。
質問の特性に応じて、複数回のメモリ更新サイクルにわたる文脈的事実を適応的に統合する動的ファクトアンサンブル手法を導入。
2ストリーム特徴（モーション用Flow CNN、アピアランス用ResNet-152）を統合し、モダリティ固有のメモリ状態を備えた動的メモリネットワーク（DMN）フレームワークを動画QAに適応。
複数サイクル（T=2またはT=3）のメモリ更新プロセスを採用し、反復的なアテンションとメモリ更新によって、複雑な時間的推論タスクの性能を向上。
フルモデルにおいて3層の文脈的事実をソフトファージョンすることで、表現学習と推論の正確性を向上。

実験結果

リサーチクエスチョン

RQ1動画質問応答における注意選択の向上を図るため、モーションとアピアランス特徴をどのように統合的にモデリングできるか？
RQ2効果的な動画QA推論のための最適なメモリ更新サイクル数は何か？
RQ3畳み込み・デコンボリューションネットワークを用いて生成された多段階の文脈的事実は、長時間の動画シーケンスにおける推論を改善できるか？
RQ4動的ファクトアンサンブルは、異なる時間的文脈長を要する多様な質問タイプにおいて、性能をどのように向上させるか？

主な発見

アクション認識タスクで68.2%の正確性を達成し、同指標で前回SOTAの62.9%を顕著に上回った。
状態遷移タスクでは74.3%の正確性を記録し、SOTAの69.4%を上回った。
フレームベースQAでは51.5%の正確性を達成し、SOTAの49.5%を上回った。
繰り返し回数カウントタスクでは平均二乗誤差（MSE）が4.10を記録し、SOTAの4.32を上回った。
アブレーションスタディの結果、2回のメモリ更新サイクル（T=2）が最良の性能を示し、T=3では利得が減少した。
動的ファクトアンサンブル手法は性能向上に顕著な寄与を示しており、共同メモリモデルに追加した際、アクション認識の正確性が66.8%から68.2%に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。