[论文解读] Weakly-Supervised Video Object Grounding from Text by Loss Weighting and Object Interaction
本论文提出逐帧损失权重化和语言引导的对象交互,用于弱监督地在视频段落中 grounding 句子中描述的对象,评估在 YouCook2-BoundingBox 上达到 state-of-the-art 的结果。
We study weakly-supervised video object grounding: given a video segment and a corresponding descriptive sentence, the goal is to localize objects that are mentioned from the sentence in the video. During training, no object bounding boxes are available, but the set of possible objects to be grounded is known beforehand. Existing approaches in the image domain use Multiple Instance Learning (MIL) to ground objects by enforcing matches between visual and semantic features. A naive extension of this approach to the video domain is to treat the entire segment as a bag of spatial object proposals. However, an object existing sparsely across multiple frames might not be detected completely since successfully spotting it from one single frame would trigger a satisfactory match. To this end, we propagate the weak supervisory signal from the segment level to frames that likely contain the target object. For frames that are unlikely to contain the target objects, we use an alternative penalty loss. We also leverage the interactions among objects as a textual guide for the grounding. We evaluate our model on the newly-collected benchmark YouCook2-BoundingBox and show improvements over competitive baselines.
研究动机与目标
- 在没有边界框注释的情况下,训练时定位在视频中的句子中提到的对象。
- 将段级监督传播到逐帧定位,以处理稀疏出现的对象。
- 利用对象交互作为文本指导来提升定位效果。
- 提供一个基于 YouCook2 构建、用于评估的带有边界框注释的新视频定位基准。
提出的方法
- 逐帧损失权重化,在目标对象不太可能出现时对帧级排序损失进行下调并加入惩罚项。
- 两个用于帧权重的置信信号:(i) 每帧的视觉-语义相似度,(ii) 通过对对象查询的自注意力进行语言引导的对象交互。
- 最终损失 L,将逐帧排序损失和惩罚项与平衡参数 lambda 结合。
- 通过对对象查询的多头自注意力进行对象交互建模,以生成基于语言的置信信号。
- 将 Grounding by Ranking 扩展到视频领域,具有逐帧候选 proposals 和缩放点积相似度。
- 在 YouCook2-BoundingBox 数据集上进行评估,包含最常见对象的边界框。
实验结果
研究问题
- RQ1逐帧损失权重是否能改善视频中稀疏出现对象的弱监督定位?
- RQ2结合视觉线索与语言引导的对象交互是否比与帧无关的方法有更好定位?
- RQ3与现有基线相比,所提方法在烹饪视频定位基准上的表现如何?
主要发现
- Loss Weighting 模型在验证集和测试集上超越 DVSA 基线的 Box Accuracy(Val. 30.07%, Test 31.23%)。
- Object Interaction 模型也优于基线(Val. 29.61%, Test 30.06%)。
- Full Model 结合损失权重与对象交互达到更高的准确度(Val. 30.31%, Test 31.73%)。
- Upper bound 的准确度(使用所有 20 个候选)为 57.77%(Val.)和 58.56%(Test)。
- 更高的采样率对所有方法略微降低性能,但所提出的损失权重在密集帧采样下比 DVSA 更鲁棒。
- 烹饪视频的定位性能在静态对象上有明显改进,对涉及状态变化的对象则存在一定局限。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。