QUICK REVIEW

[论文解读] Learning Visually-Grounded Semantics from Contrastive Adversarial Samples

Haoyue Shi, Jiayuan Mao|arXiv (Cornell University)|Jun 27, 2018

Multimodal Machine Learning Applications参考文献 38被引用 24

一句话总结

本论文提出VSE-C方法，通过在对比对抗样本（即语义相反但结构相似的合成描述）上进行训练，增强视觉对齐的文本嵌入表示。这些样本利用WordNet和语言规则生成。通过结合类内难负样本挖掘策略，VSE-C显著提升了图像到文本检索与词到概念检索任务中的零样本迁移性能，在多个基准测试中超越VSE++与GloVe。

ABSTRACT

We study the problem of grounding distributional representations of texts on the visual domain, namely visual-semantic embeddings (VSE for short). Begin with an insightful adversarial attack on VSE embeddings, we show the limitation of current frameworks and image-text datasets (e.g., MS-COCO) both quantitatively and qualitatively. The large gap between the number of possible constitutions of real-world semantics and the size of parallel data, to a large extent, restricts the model to establish the link between textual semantics and visual concepts. We alleviate this problem by augmenting the MS-COCO image captioning datasets with textual contrastive adversarial samples. These samples are synthesized using linguistic rules and the WordNet knowledge base. The construction procedure is both syntax- and semantics-aware. The samples enforce the model to ground learned embeddings to concrete concepts within the image. This simple but powerful technique brings a noticeable improvement over the baselines on a diverse set of downstream tasks, in addition to defending known-type adversarial attacks. We release the codes at https://github.com/ExplorerFreda/VSE-C.

研究动机与目标

为解决当前视觉-语义数据集（如MS-COCO）因真实世界语义组合覆盖不足而导致的数据稀疏性与偏差问题。
探究现有VSE模型为何在对抗性文本扰动下表现不佳，特别是在区分语法相似但语义相反的描述时的局限性。
通过引入对比对抗样本，强化文本与视觉概念之间的细粒度对齐，提升词嵌入在视觉空间中的定位能力。
评估所学习嵌入表示在下游任务（如图像到文本检索与填空式词预测）中的可迁移性。
开发一种可泛化的数据增强框架，整合语言规则与知识库（如WordNet），以生成语义一致但具有对比性的训练样本。

提出的方法

利用语言规则与WordNet生成对比对抗样本，构造语义相反但结构相似的描述（例如将‘on’替换为‘under’，或将名词替换为同义词）。
生成三类对抗样本：名词级（将名词替换为同义词）、数量级（改变物体数量）、关系级（调整空间介词）。
提出一种类内难负样本挖掘策略，在训练过程中选择最具挑战性的对抗样本，提升模型鲁棒性。
在原始MS-COCO描述与生成的对抗样本组合上训练VSE风格模型，采用余弦相似度损失进行联合嵌入优化。
采用基于双向GRU与ResNet-152图像特征的填空模型，最终预测通过两层MLP完成。
采用联合训练目标，促使模型在特定视觉概念（如物体、关系）层面区分真实与对抗性描述。

实验结果

研究问题

RQ1对抗性描述扰动如何暴露当前VSE模型在将文本语义准确对齐至视觉概念方面的弱点？
RQ2在模型中引入对比对抗样本在多大程度上能提升视觉-语义嵌入的鲁棒性与泛化能力？
RQ3在语义对比但句法相似的描述上进行训练，是否能增强模型将词级语义准确对齐至特定视觉实体的能力？
RQ4VSE-C在图像到文本检索与词到概念检索等多样化下游任务中的性能表现如何？
RQ5基于语言规则与WordNet的所提数据增强策略，能否有效缓解图像-文本数据集中存在的数据稀疏性与偏差问题？

主要发现

VSE-C在图像-物体检索任务中表现最佳，名词填空任务中R@1达到27.3%，R@10达到62.9%，优于VSE++（25.0%与61.7%）与GloVe（23.2%与58.8%）。
即使仅使用关系级对抗样本，VSE-C在介词填空任务中仍取得35.2% R@1与85.2% R@10的性能，与使用全部对抗类型训练的模型相当。
模型展现出强大的零样本迁移能力，在名词与介词联合填空任务中达到30.0% R@1与70.98% R@10，超越VSE++（28.4%与68.1%）。
VSE-C对已知对抗性攻击表现出强鲁棒性，在面对语义相反但结构相似的描述时，仍能保持高置信度的检索性能。
类内难负样本挖掘策略有效提升了模型的判别能力，通过聚焦最具挑战性的负样本实现训练优化。
实验结果证实，引入人类先验知识与知识库（通过WordNet）能显著降低视觉-语义学习中语言的稀疏性与非连续性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。