[论文解读] Adversarial Examples that Fool both Computer Vision and Time-Limited Humans
在CNN之间可转移的对抗扰动可能偏向受限时间的人类判断并增加错误率,揭示机器与人类视觉的共享失败模式。
Machine learning models are vulnerable to adversarial examples: small changes to images can cause computer vision models to make mistakes such as identifying a school bus as an ostrich. However, it is still an open question whether humans are prone to similar mistakes. Here, we address this question by leveraging recent techniques that transfer adversarial examples from computer vision models with known parameters and architecture to other models with unknown parameters and architecture, and by matching the initial processing of the human visual system. We find that adversarial examples that strongly transfer across computer vision models influence the classifications made by time-limited human observers.
研究动机与目标
- 研究在时间限制下是否会让计算机视觉模型失效的对抗样本也影响人类感知。
- 通过将人类早期视觉处理与CNN输入对齐,促进机器学习与神经科学的融合。
- 衡量从集成CNN到时间受限的人类观察者的对抗扰动的转移性。
提出的方法
- 构建包含10个CNN模型(Inception及ResNet变体)的集合,并加入视网膜前处理层以模拟人类早期视觉。
- 生成带有界的L-infinity范数的定向对抗扰动,以在模型集合中引发错误分类。
- 采用黑箱对抗攻击方法,无需访问模型结构或参数。
- 以掩膜对图像进行短时呈现给受限时间的人类被试,以模拟前馈处理并限制顶层信息影响。
- 在多组图像(宠物、蔬菜、危害)中,评估人类在二选一强制选择任务中的决策。
- 将对抗效应与控制条件(原图和翻转)以及一个错误条件进行比较,以分离感知影响。
实验结果
研究问题
- RQ1在CNN之间转移的对抗样本是否也会偏向时间受限的人类感知?
- RQ2类视网膜前处理如何影响对抗扰动向人类的转移?
- RQ3在简短呈现下,对抗扰动对人类准确性和决策时间的影响是什么?
- RQ4当真实类别可选时,对抗扰动是否能强制人们做出错误选择?
主要发现
- 转移到时间受限的人类的对抗扰动使选择偏向于目标错误类别。
- 对抗图像使人类准确率低于干净图像,且扰动强度高于垂直翻转控制。
- 在对抗条件下反应时间增加,较快的决策对目标类别的偏向更强。
- 对人类的转移成功在不同图像组间差异显著,危害图像的偏向比宠物图像强,宠物图像又强于蔬菜图像。
- 即使正确类别可用,对抗扰动也使错误率高于基线图像条件。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。