QUICK REVIEW

[論文レビュー] Weakly-Supervised Multi-Level Attentional Reconstruction Network for Grounding Textual Queries in Videos

Yijun Song, Jingwen Wang|arXiv (Cornell University)|Mar 16, 2020

Multimodal Machine Learning Applications参考文献 30被引用数 51

ひとこと要約

本論文はMARNを提案する。弱学習モデルで、注意再構成を通じて提案レベルとクリップレベルのアテンションを学習することで、動画内のテキストクエリの grounding を行い、Charades-STAとActivityNet-Captionsにおける弱学習法の中で最先端の結果を達成する。

ABSTRACT

The task of temporally grounding textual queries in videos is to localize one video segment that semantically corresponds to the given query. Most of the existing approaches rely on segment-sentence pairs (temporal annotations) for training, which are usually unavailable in real-world scenarios. In this work we present an effective weakly-supervised model, named as Multi-Level Attentional Reconstruction Network (MARN), which only relies on video-sentence pairs during the training stage. The proposed method leverages the idea of attentional reconstruction and directly scores the candidate segments with the learnt proposal-level attentions. Moreover, another branch learning clip-level attention is exploited to refine the proposals at both the training and testing stage. We develop a novel proposal sampling mechanism to leverage intra-proposal information for learning better proposal representation and adopt 2D convolution to exploit inter-proposal clues for learning reliable attention map. Experiments on Charades-STA and ActivityNet-Captions datasets demonstrate the superiority of our MARN over the existing weakly-supervised methods.

研究の動機と目的

動画の訓練時に時間的注釈がない状態で、テキストクエリの時間的 grounding を行うことを目的とする。
アテンショナル再構成を介して提案レベルとクリップレベルのアテンションを動画レベルの監督と結びつける。
変動長さの提案を扱うための学習可能なスケール認識型提案表現を開発する。
複数レベルのアテンションが標準ベンチマークで grounding 精度を向上させることを示す。

提案手法

動的サンプリング機構と3D畳み込みを用いて固定長で識別可能な提案表現を作成し、変動する提案スケールに対処する提案モジュールを構築する。
提案特徴とクエリ表現を融合させ、提案レベルのアテンションを計算し、提案間の文脈を捉えるために cascaded 2D 畳み込みを適用する。
attended なグローバル動画表現を用いてクエリを再構成することで提案スコアリングを動画レベルの監督に結びつける、アテンショナル再構成損失を導入する。
coarse な情報を捉え、訓練を規正するために提案ブランチとパラメータを共有するクリップレベル再構成ブランチを組み込む。
推論時には学習されたアテンションにより提案をランク付けし、必要に応じてクリップレベルのアテンションで統合ルールに従い精練する。

実験結果

リサーチクエスチョン

RQ1弱い監督（動画と文のペアのみ）を用いて、明示的なセグメント注釈なしにクエリ関連の動画セグメントを正確に局在づけるにはどうすればよいか。
RQ2提案レベルとクリップレベルのアテンショナル再構成は、視覚的内容とテキストクエリの強力な整合性を強制できるか。
RQ3フレームレベルや単純なプーリングベースの基準と比べ、提案内および提案間の相互作用をモデル化することで grounding の精度は向上するか。
RQ4多段階（提案＋クリップ）アテンションは訓練と推論の両方でどんな利点を提供するか。

主な発見

MARN は Charades-STA および ActivityNet-Captions のデータセット上で既存の弱教師付き動画 grounding 手法を上回る。
Charades-STA では、MARN は IoU=0.7 における R@1 が従来の弱教師付き手法より高く、より正確な grounding を示す。
ActivityNet-Captions では、MARN はいくつかの弱教師付きベースラインを上回り、特定の指標下で完全教師付き手法と競合することもある，特に高い IoU 閾値で。
アブレーション研究により、3D畳み込みに基づく提案内表現、3x3 の提案間文脈、およびマルチレベル（クリップレベル）拡張が性能向上に寄与することが示された。
多層的な訓練（クリップレベル）は訓練時の grounding 精度を高め、推論時にも提案レベルのアテンションと組み合わせると結果がさらに向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。