Skip to main content
QUICK REVIEW

[论文解读] Can you fool AI with adversarial examples on a visual Turing test

Xiaojun Xu, Xinyun Chen|arXiv (Cornell University)|Sep 25, 2017
Multimodal Machine Learning Applications参考文献 44被引用 26
一句话总结

本论文首次对视觉问答(VQA)中的定向对抗样本进行了全面研究,表明生成此类样本的成功与否主要取决于目标问题-答案对,而非输入图像。研究揭示了VQA模型中存在的语言先验偏差,该偏差会阻碍对某些目标的对抗生成,并表明组合式架构在对抗攻击下具有略微更高的鲁棒性。

ABSTRACT

Deep learning has achieved impressive results in many areas of Computer Vision and Natural Language Pro- cessing. Among others, Visual Question Answering (VQA), also referred to a visual Turing test, is considered one of the most compelling problems, and recent deep learning models have reported significant progress in vision and language modeling. Although Artificial Intelligence (AI) is getting closer to passing the visual Turing test, at the same time the existence of adversarial examples to deep learning systems may hinder the practical application of such systems. In this work, we conduct the first extensive study on adversarial examples for VQA systems. In particular, we focus on generating targeted adversarial examples for a VQA system while the target is considered to be a question-answer pair. Our evaluation shows that the success rate of whether a targeted adversarial example can be generated is mostly dependent on the choice of the target question-answer pair, and less on the choice of images to which the question refers. We also report the language prior phenomenon of a VQA model, which can explain why targeted adversarial examples are hard to generate for some question-answer targets. We also demonstrate that a compositional VQA architecture is slightly more resilient to adversarial attacks than a non-compositional one. Our study sheds new light on how to build deep vision and language resilient models robust against adversarial examples.

研究动机与目标

  • 调查在视觉问答(VQA)系统中生成定向对抗样本的可行性与挑战。
  • 理解为何某些问题-答案对比其他对更容易受到对抗攻击。
  • 分析VQA模型中的语言先验作用及其对对抗样本生成的影响。
  • 比较组合式与非组合式VQA架构在对抗攻击下的鲁棒性差异。
  • 为构建对对抗样本更具韧性的视觉-语言模型提供洞见。

提出的方法

  • 通过扰动输入图像来生成VQA的定向对抗样本,使模型输出特定且期望的问题-答案对。
  • 采用定向攻击框架,优化图像扰动以最大化模型对目标问答对的置信度。
  • 通过受控实验分析目标问答对和输入图像对攻击成功率的影响。
  • 通过评估模型在无视觉内容依赖时基于问题偏置预测答案的频率,度量语言先验效应。
  • 比较组合式VQA模型(先分别处理问题和图像,再进行融合)与非组合式模型(将两者作为联合输入处理)在对抗鲁棒性上的差异。
  • 在多个问题-答案对和图像输入上评估攻击成功率,以识别脆弱性模式。

实验结果

研究问题

  • RQ1目标问题-答案对的选择在多大程度上影响VQA中定向对抗样本生成的成功率?
  • RQ2输入图像在多大程度上影响VQA中定向对抗攻击的成功率?
  • RQ3VQA模型中的语言先验在何种程度上导致某些问答对对对抗生成具有抵抗力?
  • RQ4架构设计(组合式 vs. 非组合式)在多大程度上影响VQA模型对定向对抗攻击的鲁棒性?
  • RQ5能否在VQA系统中为任意指定的问题-答案对可靠地生成对抗样本?

主要发现

  • 在VQA中生成定向对抗样本的成功率主要由目标问题-答案对的选择决定,而非输入图像。
  • 由于模型中存在强烈语言先验,某些问题-答案对显著更难被欺骗,这些先验会无视视觉输入而偏好特定答案。
  • 语言先验现象可解释为何即使经过优化扰动,也无法为某些问答对可靠地生成对抗样本。
  • 与非组合式模型相比,组合式VQA架构在定向对抗攻击下表现出略微更高的抗性。
  • 本研究揭示,VQA中的对抗鲁棒性并非均匀分布,且严重依赖于目标问答对的语义和语言特性。
  • 这些发现表明,未来更具鲁棒性的VQA模型应明确考虑语言偏差和架构设计,以提升对对抗样本的防御能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。