[论文解读] Adversarial Attacks Against Medical Deep Learning Systems
本文展示了在三个领域中的最先进医疗深度学习分类器易受到白盒、黑盒和对抗性补丁攻击的影响,凸显了在医疗保健 AI 部署中的实际安全风险。
The discovery of adversarial examples has raised concerns about the practical deployment of deep learning systems. In this paper, we demonstrate that adversarial examples are capable of manipulating deep learning systems across three clinical domains. For each of our representative medical deep learning classifiers, both white and black box attacks were highly successful. Our models are representative of the current state of the art in medical computer vision and, in some cases, directly reflect architectures already seeing deployment in real world clinical settings. In addition to the technical contribution of our paper, we synthesize a large body of knowledge about the healthcare system to argue that medicine may be uniquely susceptible to adversarial attacks, both in terms of monetary incentives and technical vulnerability. To this end, we outline the healthcare economy and the incentives it creates for fraud and provide concrete examples of how and why such attacks could be realistically carried out. We urge practitioners to be aware of current vulnerabilities when deploying deep learning systems in clinical settings, and encourage the machine learning community to further investigate the domain-specific characteristics of medical learning systems.
研究动机与目标
- 评估对医疗深度学习分类器的对抗攻击的可行性。
- 描述白盒攻击和黑盒攻击如何影响临床任务中的模型性能。
- 讨论促成对抗性操控的医疗保健特定激励与系统漏洞。
提出的方法
- 通过在公开数据集上微调预训练的 ResNet-50,训练三种最先进的医疗分类器(糖尿病视网膜病变、气胸、黑色素瘤)。
- 在 ℓ∞扰动下实现白盒和黑盒投影梯度下降(PGD)攻击,以制造不可察觉的对抗性样本。
- 使用训练好的补丁在各种变换和位置下开发并测试通用对抗性补丁攻击。
- 与自然补丁基线进行比较,以评估相对攻击有效性。
- 提供可重复性代码(GitHub)可用性。
实验结果
研究问题
- RQ1白盒和黑盒对抗攻击是否显著降低医学深度学习分类器的性能?
- RQ2在医疗成像任务中,通用对抗性补丁是否比像素级扰动或自然补丁更具攻击性?
- RQ3医疗保健流程中的哪些组织和技术因素促成对抗攻击的脆弱性?
- RQ4有哪些防御或基础设施缓解措施可以降低在临床环境中这类攻击的实际风险?
主要发现
| 输入图像 | 准确性 | AUROC | 平均置信度 | 准确性 | AUROC | 平均置信度 | 准确性 | AUROC | 平均置信度 |
|---|---|---|---|---|---|---|---|---|---|
| 未扰动 | 91.0% | 0.910 | 90.4% | 94.9% | 0.937 | 96.1% | 87.6% | 0.858 | 94.1% |
| PGD - 白盒 | 0.00% | 0.000 | 100.0% | 0.00% | 0.000 | 100.0% | 0.00% | 0.000 | 100.0% |
| PGD - 黑盒 | 0.01% | 0.002 | 90.9% | 15.1% | 0.000 | 92.6% | 37.9% | 0.071 | 92.0% |
| 补丁 - 自然 | 78.5% | 0.828 | 80.8% | 92.1% | 0.539 | 95.8% | 67.5% | 0.482 | 85.6% |
| 补丁 - 白盒 | 0.3% | 0.000 | 99.2% | 0.00% | 0.000 | 98.8% | 0.00% | 0.000 | 99.7% |
| 补丁 - 黑盒 | 3.9% | 0.000 | 97.5% | 9.7% | 0.004 | 83.3% | 1.37% | 0.000 | 97.6% |
- 白盒 PGD 攻击可以将 AUROC 推至 0.000,准确率降至 0% ,覆盖所有任务。
- 黑盒 PGD 攻击导致 AUROC 小于 0.10,准确率据任务不同最高达 37.9%。
- 对抗性补丁(白盒)将 AUROC 降至 0.000,且各任务准确率低于 1% 。
- 黑盒对抗性补丁的 AUROC 小于 0.005,准确率在各任务中均低于 10%。
- 自然补丁表现明显更好,在各任务中 AUROC 为 0.48–0.83,准确率为 67.5%–92.1%。
- 基线清洁性能与这些数据集的公开结果一致(例如 AUROC 大约 0.86–0.94)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。