[论文解读] Patternless Adversarial Attacks on Video Recognition Networks
本文提出了一种新颖的、无模式的视频识别模型对抗攻击,采用人眼难以察觉且可在真实世界中实现的闪烁时间扰动。该方法通过通用且时间不变的扰动实现高欺骗率,展示了在不同模型间的迁移性,并弥合了仿真环境与空中部署之间的差距。
Deep neural networks for video classification, just like image classification networks, may be subjected to adversarial manipulation. The main difference between image classifiers and video classifiers is that the latter usually use temporal information contained within the video. In this work we present a manipulation scheme for fooling video classifiers by introducing a flickering temporal perturbation that is practically unnoticeable by human observers and is implementable in the real world. After demonstrating the manipulation of action classification of single videos, we generalize the procedure to make universal adversarial perturbation, achieving high fooling ratio. In addition, we generalize the universal perturbation and produce a temporal-invariant perturbation, which can be applied to the video without synchronizing the perturbation to the input. The attack was implemented on several target models and the transferability of the attack was demonstrated. These properties allow us to bridge the gap between simulated environment and real-world application, as will be demonstrated in this paper for the first time for an over-the-air flickering attack.
研究动机与目标
- 开发一种对人类视觉不可察觉的、适用于现实世界的视频识别模型对抗攻击。
- 解决在视频分类中应用对抗扰动的挑战,其中时间连贯性和运动动态至关重要。
- 设计一种通用对抗扰动,使其在无需时间同步的情况下对多种视频输入均保持有效性。
- 证明该攻击在多个视频分类模型间的迁移性。
- 弥合仿真对抗攻击与视频识别中空中现实世界部署之间的差距。
提出的方法
- 该攻击引入一种具有时间结构但无模式的闪烁时间扰动,以最小化对人类观察者的可察觉性。
- 该扰动经过优化,以在保持视觉不可察觉性的同时最大化视频输入的误分类率。
- 学习到一种通用扰动,可应用于任意视频输入,在多种输入上实现高欺骗率。
- 该方法推广为时间不变扰动,消除了与输入视频帧同步的需要。
- 该攻击在多个视频分类模型上实现,证明了其在不同架构间的迁移性。
- 该方法在仿真和真实世界环境中均进行了评估,验证了其空中可行性。
实验结果
研究问题
- RQ1能否设计一种闪烁的、无模式的时间扰动,在保持对人类观察者几乎不可察觉的同时欺骗视频识别模型?
- RQ2所提出的通用对抗扰动在攻击多种视频分类模型方面的有效性如何?
- RQ3能否构建一种时间不变的扰动,使其在无需帧级同步的情况下仍保持有效性?
- RQ4该攻击在不同视频识别模型间的迁移程度如何?
- RQ5该攻击能否在真实世界的空中场景中成功部署?
主要发现
- 所提出的闪烁时间扰动在保持对人类观察者几乎不可察觉的同时,对视频识别模型实现了高欺骗率。
- 通用对抗扰动在多个视频分类模型间表现出强大的迁移性,表明其具有广泛适用性。
- 时间不变扰动即使在未与输入视频帧同步的情况下仍能保持高攻击成功率,显著提升了现实可行性。
- 该攻击在空中设置中成功演示,证明了其在真实世界部署场景中的可行性。
- 该方法有效弥合了仿真对抗攻击与视频识别中现实世界物理应用之间的差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。