QUICK REVIEW

[论文解读] Neural Language Modeling with Visual Features

Antonios Anastasopoulos, Shankar Kumar|arXiv (Cornell University)|Mar 7, 2019

Multimodal Machine Learning Applications参考文献 23被引用 23

一句话总结

本文提出了一种多模态循环神经语言模型，将视频中的时序视觉特征整合到基于文本的语言建模中。通过使用视觉与文本嵌入的中间融合，该模型在YouCook2数据集上实现了28%的相对困惑度降低，在Something-Something-v2上实现了20%的降低，显著优于仅使用文本的基线模型和先前工作，尤其在视频中可见的实体上表现更优。

ABSTRACT

Multimodal language models attempt to incorporate non-linguistic features for the language modeling task. In this work, we extend a standard recurrent neural network (RNN) language model with features derived from videos. We train our models on data that is two orders-of-magnitude bigger than datasets used in prior work. We perform a thorough exploration of model architectures for combining visual and text features. Our experiments on two corpora (YouCookII and 20bn-something-something-v2) show that the best performing architecture consists of middle fusion of visual and text features, yielding over 25% relative improvement in perplexity. We report analysis that provides insights into why our multimodal language model improves upon a standard RNN language model.

研究动机与目标

探究在神经语言建模中引入时序视觉上下文是否能提升性能。
探索在循环语言模型中融合视觉与文本特征的架构设计。
在比先前多模态语言建模工作大两个数量级的数据集上进行训练与评估。
确定视觉特征是否在预测中被有意义地利用，尤其是针对视频锚定的实体。
分析视觉上下文对困惑度降低与模型鲁棒性的贡献。

提出的方法

该模型采用标准RNNLM，其输入特征由每个时间步的词嵌入与视频帧嵌入拼接而成。
评估了三种融合策略：早期融合（词嵌入与视觉嵌入的拼接）、中间融合（在RNN隐藏层内进行融合）和晚期融合（分别处理后在后期拼接）。
线性组合变体通过可学习矩阵 $ K^w $ 和 $ K^v $ 学习词嵌入与视觉嵌入的加权和。
可学习的加权机制应用Sigmoid门控来根据当前词上下文调节视觉嵌入。
模型在两个大规模数据集上进行训练：YouCook2（2,000个烹饪视频，附带转录文本）和Something-Something-v2（220K个短动作视频，附带模板化描述）。
在保留的验证集上计算困惑度，消融研究通过将视觉特征替换为零向量来评估其影响。

实验结果

研究问题

RQ1将视频中的时序视觉特征引入是否能显著降低语言建模的困惑度？
RQ2在早期、中间或晚期融合中，哪种架构能更有效地融合视觉与文本特征以提升语言建模性能？
RQ3视觉特征在预测视频中出现的实体所对应的词语时，贡献程度如何？
RQ4当视觉特征缺失或在训练与测试数据间存在领域差异时，多模态模型的鲁棒性如何？
RQ5模型能否有效学习根据当前词上下文门控或加权视觉输入？

主要发现

视觉与文本特征的中间融合表现最佳，在YouCook2数据集上相比仅使用文本的基线模型，困惑度相对降低28%。
晚期融合在YouCook2上使困惑度相对降低12%，在Something-Something-v2上降低5%，表明晚期集成带来中等程度的增益。
早期融合表现劣于仅使用文本的基线模型，表明早期拼接会破坏有效的语言建模。
线性组合与可学习加权变体在YouCook2上分别带来6%和14%的相对性能提升，但在Something-Something-v2上增益有限。
当模型被屏蔽视觉特征时，性能与仅使用文本的模型相当，证实视觉特征被主动使用而非被忽略。
困惑度的最大改善出现在对应于视频中出现的实体的词片上，88%的句子在多模态模型下得分更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。