QUICK REVIEW

[论文解读] Learning Language-Visual Embedding for Movie Understanding with Natural-Language

Atousa Torabi, Niket Tandon|arXiv (Cornell University)|Sep 26, 2016

Multimodal Machine Learning Applications参考文献 26被引用 72

一句话总结

本文提出了一种联合语言-视觉嵌入模型，用于通过自然语言进行电影理解，利用多模态深度学习提升视频注释与检索性能。通过在LSMDC16数据集上使用重述的字幕和人类活动谓词进行训练，最佳模型在视频注释任务中达到19.2%的Recall@10，在新型多项选择测试中达到58.11%的准确率，展示了在结构化评估下视觉-语言理解的强劲性能。

ABSTRACT

Learning a joint language-visual embedding has a number of very appealing properties and can result in variety of practical application, including natural language image/video annotation and search. In this work, we study three different joint language-visual neural network model architectures. We evaluate our models on large scale LSMDC16 movie dataset for two tasks: 1) Standard Ranking for video annotation and retrieval 2) Our proposed movie multiple-choice test. This test facilitate automatic evaluation of visual-language models for natural language video annotation based on human activities. In addition to original Audio Description (AD) captions, provided as part of LSMDC16, we collected and will make available a) manually generated re-phrasings of those captions obtained using Amazon MTurk b) automatically generated human activity elements in "Predicate + Object" (PO) phrases based on "Knowlywood", an activity knowledge mining model. Our best model archives Recall@10 of 19.2% on annotation and 18.9% on video retrieval tasks for subset of 1000 samples. For multiple-choice test, our best model achieve accuracy 58.11% over whole LSMDC16 public test-set.

研究动机与目标

开发一种联合语言-视觉嵌入模型，实现基于自然语言查询的准确视频注释与检索。
解决在视频理解中评估视觉-语言模型的挑战，提出一种基于人类活动的新型、自动化且精确的多项选择测试。
通过在COCO与LSMDC16数据集的组合上进行训练，包括重述字幕与自动提取的谓词-对象短语，提升模型泛化能力。
在标准排序任务与所提出的多项选择测试上评估模型性能，以实现更客观且可扩展的评估。

提出的方法

作者设计了三种联合语言-视觉神经网络架构：一种使用全局视频特征上的软注意力机制（M1），以及两种基于LSTM编码并结合软注意力机制的模型（M2与M3）。
采用时间注意力网络，根据短语查询动态突出显示关键视频帧，从而提升检索精度。
模型通过结合COCO图像字幕与LSMDC16视频描述进行训练，其中包含通过Amazon Mechanical Turk收集的手动重述字幕。
利用Knowlywood模型提取人类活动元素，生成“谓词 + 宾语”（PO）短语，以改善动作在视频中的定位。
在评估方面，作者引入一种基于视频片段与自然语言问题的多项选择测试，答案源自PO短语与重述字幕。
模型使用顺序嵌入损失与成对排序损失，以同时优化检索与分类性能。

实验结果

研究问题

RQ1联合语言-视觉嵌入模型是否能有效提升在LSMDC16数据集上的视频注释与检索性能？
RQ2使用重述字幕与自动提取的谓词-对象短语进行训练，对模型泛化能力与性能有何影响？
RQ3基于人类活动的多项选择测试能否为视频理解中的视觉-语言模型提供可靠且自动化的评估基准？
RQ4结合COCO与LSMDC16数据集对模型在零样本与少样本设置下的性能有何影响？

主要发现

表现最佳的模型M2在COCO与LSMDC16数据集上结合重述字幕（C+L’16+RP）进行训练，实现19.2%的Recall@10（视频注释）与18.9%的Recall@10（视频检索，1000个样本子集）。
在完整的LSMDC16公开测试集上，该模型在所提出的多项选择测试中达到58.11%的准确率，优于其他变体。
与成对排序损失相比，使用注释排序（AR）损失可使多项选择准确率提升2%。
模型在基于短语的视频搜索中表现优异，注意力网络能正确突出显示与查询短语相对应的关键帧。
COCO与LSMDC16数据的结合显著提升了模型泛化能力，表现为中位数排名（medR）改善，且在所有设置下召回率均提高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。