QUICK REVIEW

[论文解读] Weakly-Supervised Multi-Level Attentional Reconstruction Network for Grounding Textual Queries in Videos

Yijun Song, Jingwen Wang|arXiv (Cornell University)|Mar 16, 2020

Multimodal Machine Learning Applications参考文献 30被引用 51

一句话总结

论文提出了 MARN，一种弱监督模型，通过在注意力重构中学习提案级和片段级注意力，从而在视频中定位文本查询，在 Charades-STA 和 ActivityNet-Captions 的弱监督方法中达到最新的性能。

ABSTRACT

The task of temporally grounding textual queries in videos is to localize one video segment that semantically corresponds to the given query. Most of the existing approaches rely on segment-sentence pairs (temporal annotations) for training, which are usually unavailable in real-world scenarios. In this work we present an effective weakly-supervised model, named as Multi-Level Attentional Reconstruction Network (MARN), which only relies on video-sentence pairs during the training stage. The proposed method leverages the idea of attentional reconstruction and directly scores the candidate segments with the learnt proposal-level attentions. Moreover, another branch learning clip-level attention is exploited to refine the proposals at both the training and testing stage. We develop a novel proposal sampling mechanism to leverage intra-proposal information for learning better proposal representation and adopt 2D convolution to exploit inter-proposal clues for learning reliable attention map. Experiments on Charades-STA and ActivityNet-Captions datasets demonstrate the superiority of our MARN over the existing weakly-supervised methods.

研究动机与目标

在训练阶段不使用时间注释的情况下解决视频中对文本查询的时间定位问题。
通过注意力重构将提案级和片段级注意力与视频级监督相耦合。
开发一个可学习、具有尺度感知的提案表示，以处理不同长度的提案。
证明多层注意力在基准数据上能提升定位准确度。

提出的方法

通过动态采样机制和3D卷积构建一个提案模块，以创建固定长度、判别性强的提案表示，以处理可变的提案尺度。
通过将提案特征与查询表示融合并应用级联2D卷积来捕捉提案间的上下文，计算提案级注意力。
引入一个注意力重构损失，其中被关注的全局视频表示用于重构查询，将提案评分与视频级监督联系起来。
引入一个片段级重构分支，以捕捉粗粒信息并对训练进行正则化，与提案分支共享参数。
在推理阶段，通过学习得到的注意力对提案进行排序，并在需要时通过融合规则用片段级注意力进行细化。

实验结果

研究问题

RQ1如何仅使用弱监督（视频-句子对）在没有显式片段注释的情况下准确定位与查询相关的视频片段？
RQ2在提案级和片段级的注意力重构是否能够强烈对齐视觉内容与文本查询？
RQ3建模提案内和提案间的互动是否能在相比帧级或简单池化基线时提高定位准确性？
RQ4多层次（提案+片段）注意力在训练和推理阶段提供了哪些好处？

主要发现

MARN 在 Charades-STA 和 ActivityNet-Captions 数据集上超越现有的弱监督视频定位方法。
在 Charades-STA 上，MARN 在 IoU=0.7 时的 R@1 高于以往的弱监督方法，表明定位更为精确。
在 ActivityNet-Captions 上，MARN 超越了若干弱监督基线，在某些指标下甚至与某些完全监督方法竞争，尤其是在较高的 IoU 阈值下。
消融研究表明，基于3D卷积的提案内表示、3x3 的提案间上下文，以及多层次（片段级）扩展均有助于性能提升。
多层训练（片段级）在训练阶段提高定位精度，结合提案级注意力时在推理阶段进一步提升结果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。