Skip to main content
QUICK REVIEW

[论文解读] The Lipschitz Constant of Self-Attention

Hyunjik Kim, George Papamakarios|arXiv (Cornell University)|Jun 8, 2020
Mental Health Research Topics参考文献 34被引用 29
一句话总结

本文证明了标准点积自注意力机制在无界输入下不具备利普希茨连续性,并提出了L2自注意力作为利普希茨连续的替代方案。文章推导了L2自注意力的利普希茨常数上界,并通过在Transformer中应用可逆自注意力进行字符级语言建模,验证了其在实际中的有效性,展示了更高的稳定性和性能。

ABSTRACT

Lipschitz constants of neural networks have been explored in various contexts in deep learning, such as provable adversarial robustness, estimating Wasserstein distance, stabilising training of GANs, and formulating invertible neural networks. Such works have focused on bounding the Lipschitz constant of fully connected or convolutional networks, composed of linear maps and pointwise non-linearities. In this paper, we investigate the Lipschitz constant of self-attention, a non-linear neural network module widely used in sequence modelling. We prove that the standard dot-product self-attention is not Lipschitz for unbounded input domain, and propose an alternative L2 self-attention that is Lipschitz. We derive an upper bound on the Lipschitz constant of L2 self-attention and provide empirical evidence for its asymptotic tightness. To demonstrate the practical relevance of our theoretical work, we formulate invertible self-attention and use it in a Transformer-based architecture for a character-level language modelling task.

研究动机与目标

  • 分析自注意力机制的利普希茨性质,该机制在Transformer中被广泛使用,但此前在该上下文中尚未得到分析。
  • 证明标准点积自注意力在无界输入域下不具备利普希茨连续性,限制了其在鲁棒学习应用中的使用。
  • 提出L2自注意力作为利普希茨连续的替代方案,使其能够在对抗鲁棒性、归一化流和GAN训练中提供理论保证。
  • 推导L2自注意力的利普希茨常数的紧致理论上界,并通过实证验证其渐近紧致性。
  • 通过构建可逆自注意力并将其应用于基于Transformer的字符级语言模型,将理论结果付诸实践。

提出的方法

  • 通过证明其输出可随有界输入变化而任意快速改变,来证明点积自注意力不具备利普希茨连续性。
  • 提出L2自注意力,通过使用L2归一化的查询和键来替代点积注意力,以确保输出变化有界。
  • 利用矩阵范数分析和协方差矩阵性质,推导L2自注意力的利普希茨常数上界。
  • 利用推导出的上界,通过确保变换为双利普希茨且可逆,构建可逆自注意力层。
  • 实现基于Transformer的架构,其中包含可逆自注意力,并在字符级语言建模任务上进行评估。
  • 通过实证评估可逆模型的稳定性和测试对数似然,与标准点积注意力进行对比。

实验结果

研究问题

  • RQ1标准点积自注意力在无界输入域下是否具备利普希茨连续性?
  • RQ2能否构建一种修改后的自注意力版本使其具备利普希茨连续性?
  • RQ3此类利普希茨连续自注意力模块的利普希茨常数是否存在紧致的理论上限?
  • RQ4理论利普希茨界是否可实际用于在基于注意力的架构中构建可逆神经网络?
  • RQ5使用利普希茨连续的自注意力是否能提升序列建模任务中的训练稳定性和性能?

主要发现

  • 标准点积自注意力不具备利普希茨连续性,因为其输出可随输入范数增大而任意快速变化。
  • L2自注意力通过构造被证明具备利普希茨连续性,确保输出变化相对于输入变化有界。
  • 本文推导出L2自注意力的利普希茨常数上界为 $ \epsilon^{-1/2} \max_d |\gamma_d| \frac{D^2 - 2}{D} $,该结果在给定假设下成立。
  • 实证结果表明,该推导出的上界在高维设置下渐近紧致,实际利普希茨常数趋近于理论最大值。
  • 基于利普希茨界构建的可逆自注意力模块在字符级语言建模中实现了比标准点积注意力更高的训练稳定性和具有竞争力的测试对数似然。
  • 该理论框架使得自注意力可应用于需要利普希茨约束的应用,如归一化流、GAN和对抗鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。