[论文解读] Adversarial Examples that Fool both Computer Vision and Time-Limited Humans
论文表明跨CNN模型转移的对抗样本也会影响时限的人类观察者,揭示机器视觉与人类感知之间的共同失败模式。
Machine learning models are vulnerable to adversarial examples: small changes to images can cause computer vision models to make mistakes such as identifying a school bus as an ostrich. However, it is still an open question whether humans are prone to similar mistakes. Here, we address this question by leveraging recent techniques that transfer adversarial examples from computer vision models with known parameters and architecture to other models with unknown parameters and architecture, and by matching the initial processing of the human visual system. We find that adversarial examples that strongly transfer across computer vision models influence the classifications made by time-limited human observers.
研究动机与目标
- 研究在时间限制下,可转移的CNN对抗样本是否会影响人类感知。
- 通过使人类初始视觉处理与CNN预处理对齐,架起机器学习与神经科学的桥梁。
- 评估简短图像呈现是否允许对抗性特征影响人类的分类。
- 量化对人类的对抗样本转移性在不同图像组中的变化。
提出的方法
- 构建一个包含不同架构的10个CNN模型的集合(Inception V3/V4, Inception ResNet V2, ResNet V2 50/101/152)。
- 在前端加入类视网膜的预处理层,以模拟带有偏心半径模糊的人类初始视觉处理。
- 在L-infinity预算下生成定向对抗扰动,以造成跨模型的错分类(A到B和B到A)。
- 向人类受试者呈现简短、时间受限的刺激,在二选一强制选择任务中使用高对比掩蔽以限制处理。
- 包括对照条件(翻转扰动、仅图像、以及强制出错的伪条件)以分离对抗效应。
- 同时评估对未见CNN的转移(对抗训练的Inception V3和ResNet V2 50)以及对时限人类的转移。
实验结果
研究问题
- RQ1为CNN集合设计的对抗样本在时间限制下能否转移到人类?
- RQ2类视网膜预处理和模型集成是否促进对人体观测者的转移?
- RQ3对简短识别任务中的人类正确率和反应时间,扰动有何影响?
- RQ4对某些图像组(宠物、蔬菜、危险)对抗效应是否更强?
主要发现
- 对抗扰动在未见CNN上可转移,攻击成功率在57%-89%之间,取决于类别和条件。
- 时限的人类表现出偏向对抗目标类别的选择,即使真实类别不在选项中。
- 在对抗条件下的人类显示出比对照组更长的反应时间。
- 与清晰图像相比,在对抗条件下准确率下降,且扰动方向(adv vs flip)对感知影响有差异。
- hazard组的感知偏向比宠物和蔬菜更强,且各组的反应时模式与感知偏向呈反相关。
- 即使扰动是可感知的,对人类的对抗效应仍然存在,表明感知的跨领域脆弱性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。