Skip to main content
QUICK REVIEW

[论文解读] Sorting out Lipschitz function approximation

Cem Anil, James Lucas|arXiv (Cornell University)|Nov 13, 2018
Adversarial Robustness in Machine Learning参考文献 54被引用 31
一句话总结

本文提出了一种范数约束的GroupSort网络,作为通用的Lipschitz函数逼近器,结合了梯度范数保持的GroupSort激活函数与权重矩阵范数约束。该方法在对ReLU基线方法的准确性损失最小的情况下,实现了更紧的Wasserstein距离估计和更优的对抗鲁棒性,解决了在Lipschitz约束下表达能力的关键权衡。

ABSTRACT

Training neural networks under a strict Lipschitz constraint is useful for provable adversarial robustness, generalization bounds, interpretable gradients, and Wasserstein distance estimation. By the composition property of Lipschitz functions, it suffices to ensure that each individual affine transformation or nonlinear activation is 1-Lipschitz. The challenge is to do this while maintaining the expressive power. We identify a necessary property for such an architecture: each of the layers must preserve the gradient norm during backpropagation. Based on this, we propose to combine a gradient norm preserving activation function, GroupSort, with norm-constrained weight matrices. We show that norm-constrained GroupSort architectures are universal Lipschitz function approximators. Empirically, we show that norm-constrained GroupSort networks achieve tighter estimates of Wasserstein distance than their ReLU counterparts and can achieve provable adversarial robustness guarantees with little cost to accuracy.

研究动机与目标

  • 解决神经网络在严格Lipschitz约束下缺乏表达性通用逼近器的问题。
  • 解决现有架构中Lipschitz约束强制与模型表达力之间的权衡。
  • 识别梯度范数保持作为表达性、范数约束Lipschitz网络的必要条件。
  • 证明GroupSort结合范数约束权重可实现对1-Lipschitz函数的通用逼近。
  • 通过实证验证在Wasserstein距离估计和对抗鲁棒性方面的性能提升。

提出的方法

  • 提出GroupSort,一种梯度范数保持的激活函数,通过排序神经元组来确保Lipschitz连续性与梯度范数保持。
  • 对权重矩阵施加谱范数约束,以确保每个线性变换为1-Lipschitz。
  • 使用Stone-Weierstrass定理的一个变体,证明范数约束的GroupSort网络是通用的1-Lipschitz函数逼近器。
  • 采用AggMo优化器并施加权重范数约束与梯度投影,用于对抗鲁棒性训练。
  • 在GAN训练后冻结生成器权重,利用带有GroupSort的判别器网络评估Wasserstein距离。
  • 在每次更新后对权重矩阵应用$L_\text{infty}$-范数投影,以在训练过程中保持Lipschitz约束。

实验结果

研究问题

  • RQ1神经网络架构能否在保证可证明的1-Lipschitz性的同时保持高表达能力?
  • RQ2范数约束网络要逼近任意1-Lipschitz函数,其必要的架构特性是什么?
  • RQ3GroupSort在逼近绝对值等简单Lipschitz函数方面与ReLU相比如何?
  • RQ4基于GroupSort的判别器能否为Wasserstein距离提供比ReLU基线更紧的下界?
  • RQ5使用GroupSort是否能在不牺牲干净准确率的前提下提升对抗鲁棒性?

主要发现

  • 范数约束的GroupSort网络在复杂、高维分布之间的Wasserstein距离估计中,比ReLU基线实现了更紧的下界。
  • GroupSort网络在对抗鲁棒性方面优于ReLU网络,在$\epsilon=0.3$的PGD攻击下达到77.7%的鲁棒准确率,而ReLU网络仅为62.2%。
  • Margin-0.3 MaxMin网络在$\epsilon=0.3$的PGD攻击下达到24.4%的鲁棒准确率,显著优于ReLU网络在相同条件下70.1%的干净准确率。
  • 带有范数约束的ReLU网络无法逼近绝对值等简单Lipschitz函数,而GroupSort网络能够成功逼近。
  • 范数约束的GroupSort网络在泛化和可解释性任务中均保持高性能,均匀的梯度尺度有助于可视化。
  • 理论分析证实,在$L_p$度量下,范数约束的GroupSort网络是1-Lipschitz函数的通用逼近器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。