Skip to main content
QUICK REVIEW

[论文解读] Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Boxiao Pan, Haoye Cai|arXiv (Cornell University)|Mar 31, 2020
Multimodal Machine Learning Applications参考文献 52被引用 30
一句话总结

本文提出一个用于视频字幕生成的时空对象图,并具备将对象级信息蒸馏到场景分支的对象感知知识蒸馏机制,在可解释的定位下取得具有竞争力的结果。

ABSTRACT

Video captioning is a challenging task that requires a deep understanding of visual scenes. State-of-the-art methods generate captions using either scene-level or object-level information but without explicitly modeling object interactions. Thus, they often fail to make visually grounded predictions, and are sensitive to spurious correlations. In this paper, we propose a novel spatio-temporal graph model for video captioning that exploits object interactions in space and time. Our model builds interpretable links and is able to provide explicit visual grounding. To avoid unstable performance caused by the variable number of objects, we further propose an object-aware knowledge distillation mechanism, in which local object information is used to regularize global scene features. We demonstrate the efficacy of our approach through extensive experiments on two benchmarks, showing our approach yields competitive performance with interpretable predictions.

研究动机与目标

  • 推动视频字幕生成,显式建模超越全局帧特征的对象交互。
  • 提出一个时空图来捕捉时空中的对象关系。
  • 引入一个对象感知的知识蒸馏机制,用对象信息对全局场景特征进行正则化。
  • 开发一个双分支架构,在训练时对象分支为场景分支提供信息,使得测试时仅使用场景特征即可高效生成。
  • 在标准基准上展示改进的性能和定位能力。

提出的方法

  • 将视频表示为一个时空图,包含逐帧的空间图和帧间的时间图。
  • 使用对象候选框之间的归一化 IoU 计算空间邻接;使用相邻帧之间对象特征的余弦相似度计算时间邻接。
  • 在统一的时空图上应用图卷积以更新对象特征。
  • 引入一个场景分支,处理全局帧特征,并通过软化、对数几率级别的蒸馏损失将蒸馏的对象信息进行融合。
  • 为对象分支和场景分支各自使用独立的基于 Transformer 的语言解码器,并以语言损失结合蒸馏损失进行训练。
  • 在测试时仅部署场景分支用于字幕生成,利用蒸馏得到的对象知识。

实验结果

研究问题

  • RQ1显式的时空对象交互建模是否能提升视频字幕质量和定位?
  • RQ2对象感知的知识蒸馏在与全局场景特征整合时,是否能有效正则化嘈杂的对象图表示?
  • RQ3在标准基准上,所提出的双分支框架与单分支基线和其他基于图的方法相比如何?
  • RQ4同时包含空间图和时间图与仅使用其中一个或一个密集图相比,其影响是什么?
  • RQ5该方法是否提供可解释的字幕视觉定位?

主要发现

  • 在 MSVD 上,完整模型在 BLEU@4、METEOR、ROUGE-L 和 CIDEr 上实现了最先进或具竞争力的结果。
  • 在 MSR-VTT 上,完整模型与强基线相比具有竞争力,场景-only 变体表现较差,凸显了对象信息蒸馏的好处。
  • 消融实验表明,空间图和时间图均有显著贡献,且基于先验知识的图比密集、无结构的图表现更好。
  • 对象感知的知识蒸馏通过定性显著性图和更准确的对象相关字幕细节提升定位能力。
  • 带有对数几率级蒸馏的双分支架构在性能上优于拼接或基于 L2 的融合,同时在测试时避免了对象检测。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。