[论文解读] Preventing Gradient Attenuation in Lipschitz Constrained Convolutional Networks
本文提出 BCOP,即块卷积正交参数化,用以训练可扩展且受 Lipschitz 约束的卷积网络,保持梯度范数,从而实现可证明的鲁棒性和更紧的 Wasserstein 估计。
Lipschitz constraints under L2 norm on deep neural networks are useful for provable adversarial robustness bounds, stable training, and Wasserstein distance estimation. While heuristic approaches such as the gradient penalty have seen much practical success, it is challenging to achieve similar practical performance while provably enforcing a Lipschitz constraint. In principle, one can design Lipschitz constrained architectures using the composition property of Lipschitz functions, but Anil et al. recently identified a key obstacle to this approach: gradient norm attenuation. They showed how to circumvent this problem in the case of fully connected networks by designing each layer to be gradient norm preserving. We extend their approach to train scalable, expressive, provably Lipschitz convolutional networks. In particular, we present the Block Convolution Orthogonal Parameterization (BCOP), an expressive parameterization of orthogonal convolution operations. We show that even though the space of orthogonal convolutions is disconnected, the largest connected component of BCOP with 2n channels can represent arbitrary BCOP convolutions over n channels. Our BCOP parameterization allows us to train large convolutional networks with provable Lipschitz bounds. Empirically, we find that it is competitive with existing approaches to provable adversarial robustness and Wasserstein distance estimation.
研究动机与目标
- 动机与解决在对卷积网络强制 Lipschitz 约束时的梯度范数衰减问题。
- 提出一个可扩展、表达力强的正交卷积参数化(BCOP),以保持梯度范数。
- 理论性分析正交卷积空间的拓扑结构,并展示 BCOP 如何克服不连通性。
- 展示在 L2 下改进的确定性可证明对抗鲁棒性以及更紧的 Wasserstein 距离估计。
- 在鲁棒性和 Wasserstein 任务方面,将 BCOP 与现有的 Lipschitz 约束方法进行比较。
提出的方法
- 回顾神经网络中对 Lipschitz 上界和梯度范数保持的需求。
- 介绍 BCOP:一种使用分块卷积和对称投影算子来实现正交性的构造性参数化。
- 证明正交卷积空间是不连通的,并显示 BCOP 能在一个 2n 通道的连通分量内表示所有 n 通道卷积。
- 提供一个算法(Algorithm 1)来使用辅助维度构建 BCOP,以确保一个连通、表达力强的参数化。
- 将 BCOP 应用于可证明的范数界限对抗鲁棒性和 Wasserstein 距离估计,并与 OSSN、RKO 和 SVCM 进行比较。
实验结果
研究问题
- RQ1在保持表达力的同时,是否可以在 Lipschitz 约束的卷积网络中消除梯度范数衰减?
- RQ2一个连通、表达力强的正交卷积参数化是否能够实现可扩展、具可证明 Lipschitz 的鲁棒性和 Wasserstein 估计的网络?
- RQ3就鲁棒性保证和 Wasserstein 下界而言,BCOP 与现有的 Lipschitz 约束方法相比如何?
- RQ4正交卷积空间的哪些理论属性(如拓扑结构)会影响优化,又如何减缓这些影响?
- RQ5在 MNIST/CIFAR-10 鲁棒性和 STL-10 Wasserstein 估计任务中,BCOP 是否能达到有竞争力或更优的性能?
主要发现
- BCOP 产生梯度范数保持、1-Lipschitz 的卷积层,在训练过程中保持奇异值分布。
- 在 MNIST 和 CIFAR-10 的 L2 扰动下,BCOP 在确定性可证明对抗鲁棒性基准上优于 OSSN、RKO 和 SVCM。
- 该方法在 GAN 设置下提供更紧的分布 Wasserstein 距离估计,优于其他 Lipschitz 卷积方法。
- 理论分析表明正交卷积空间高度不连通,且 BCOP 的辅助维度构造将有效空间整合为一个单一连通分量。
- BCOP 在保持 GNP 和动态等距性的架构下实现与最先进鲁棒性相当的性能,无需依赖残差连接或批量归一化。
- 实证结果表明 强制梯度范数保持有助于充分发挥受 Lipschitz 约束的卷积的表达能力,从而获得更大的鲁棒性边际和鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。