[论文解读] Fortified Networks: Improving the Robustness of Deep Networks by Modeling the Manifold of Hidden Representations
强化网络通过使用去噪自编码器(DAEs)在隐藏表征偏离数据流形时将其投影回数据流形,显著提升了对白盒和黑盒对抗攻击的防御能力,且无需对网络架构进行大规模修改。该方法在MNIST上实现了最先进水平的鲁棒性,在CIFAR-10和Fashion-MNIST上也取得了性能提升,重建误差可作为分布偏移的可靠指标。
Deep networks have achieved impressive results across a variety of important tasks. However a known weakness is a failure to perform well when evaluated on data which differ from the training distribution, even if these differences are very small, as is the case with adversarial examples. We propose Fortified Networks, a simple transformation of existing networks, which fortifies the hidden layers in a deep network by identifying when the hidden states are off of the data manifold, and maps these hidden states back to parts of the data manifold where the network performs well. Our principal contribution is to show that fortifying these hidden states improves the robustness of deep networks and our experiments (i) demonstrate improved robustness to standard adversarial attacks in both black-box and white-box threat models; (ii) suggest that our improvements are not primarily due to the gradient masking problem and (iii) show the advantage of doing this fortification in the hidden layers instead of the input space.
研究动机与目标
- 解决深度网络对位于数据流形附近但导致误分类的对抗样本的脆弱性。
- 开发一种实用、即插即用的防御方法,可应用于现有网络而无需从头开始训练。
- 在白盒和黑盒威胁模型下提升鲁棒性,同时避免梯度屏蔽问题。
- 证明在隐藏表征空间中进行鲁棒化比在输入空间更有效。
- 在推理时通过DAE重建误差提供分布偏移的可靠信号。
提出的方法
- 在预训练网络的隐藏层之间引入去噪自编码器(DAEs)作为‘装饰’,以强化其表征能力。
- 训练DAEs从损坏的版本中重建干净的隐藏状态,学习表征空间中数据流形的内在结构。
- 使用DAE的解码器将任何偏离流形的隐藏状态(在对抗样本中明显可见)投影回数据流形上最近的点。
- 采用联合损失:在干净数据上使用重建损失,在扰动输入上使用对抗损失,以促进鲁棒性。
- 在推理过程中将强化层集成到网络中,使用DAE在最终分类前对隐藏激活进行去噪。
- 在测试时使用重建误差作为检测分布外或对抗输入的可靠指标。
实验结果
研究问题
- RQ1通过使用去噪自编码器强化隐藏表征,是否能比输入空间防御更有效地提升对对抗攻击的鲁棒性?
- RQ2所提出的方法是否避免了以往防御中常见的梯度屏蔽问题?
- RQ3DAE的重建误差能否作为检测分布偏移或对抗输入的可靠信号?
- RQ4在隐藏表征空间中进行鲁棒化是否比在输入空间更有效,以防御对抗样本?
- RQ5该方法是否可通用地应用于现有网络,而无需架构更改或大量重新训练?
主要发现
- 强化网络在MNIST上实现了最先进水平的鲁棒性,在白盒和黑盒攻击场景下均优于先前的防御方法。
- 该方法在CIFAR-10和Fashion-MNIST上也表现出一致的性能提升,证明其在MNIST之外的泛化能力。
- 该防御在白盒和黑盒攻击下均保持有效,表明其不受到梯度屏蔽的影响。
- DAE中的重建误差可作为分布偏移的可靠指标,能够检测对抗样本和域偏移。
- 该方法具有实用性与可组合性:可轻松添加到现有网络(包括ResNets)中,计算开销极低。
- 当与对抗训练结合使用时,该方法效果最佳,表明数据增强与表征级鲁棒化之间存在协同效应。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。