[论文解读] Identifiable Equivariant Networks are Layerwise Equivariant
论文证明:任何具有可识别参数的端到端等变网络,在端到端对称性诱导的潜在空间作用下,必然呈现层级等变性。
We investigate the relation between end-to-end equivariance and layerwise equivariance in deep neural networks. We prove the following: For a network whose end-to-end function is equivariant with respect to group actions on the input and output spaces, there is a parameter choice yielding the same end-to-end function such that its layers are equivariant with respect to some group actions on the latent spaces. Our result assumes that the parameters of the model are identifiable in an appropriate sense. This identifiability property has been established in the literature for a large class of networks, to which our results apply immediately, while it is conjectural for others. The theory we develop is grounded in an abstract formalism, and is therefore architecture-agnostic. Overall, our results provide a mathematical explanation for the emergence of equivariant structures in the weights of neural networks during training -- a phenomenon that is consistently observed in practice.
研究动机与目标
- 在深度网络中推动并形式化端到端等变性与层级等变性的联系。
- 引入可识别性作为一个关键假设,使对称性从输入/输出传递到潜在层成为可能。
- 在可识别性的前提下,证明端到端等变网络的每一层都必须具有层级等变。
- 提供一个抽象的、与结构无关的框架,适用于MLP和注意力机制。
提出的方法
- 将深度模型定义为潜在空间序列、层映射与参数,并形式化子模型。
- 在潜在空间上引入群作用及将端到端与层内对称性联系起来的 adjunction 性质。
- 定义可识别性与弱可识别性,以将全局函数等价性与层间对称性调整联系起来。
- 证明端到端 G-等变性加上弱可识别性意味着每一层在潜在空间作用下也是 G-等变。
- 将理论应用到MLP和带有具体潜在空间互相缠绕群的多头注意网络。

实验结果
研究问题
- RQ1当存在端到端等变网络时,在可识别性的前提下,我们能否保证潜在层的层级等变性?
- RQ2在像MLP和注意力网络这样的常见架构中,哪些可识别性条件对层级对称性的传播是必要的?
- RQ3 adjunction 性质如何约束第一层和最后一层的群作用以确保整体等变性?
- RQ4将该理论扩展到带有 token 或 head 置换对称性的注意力架构时如何?
主要发现
- 在弱可识别性和端到端 G-等变性条件下,存在潜在空间群作用,使每一层都具有 G-等变性。
- 潜在作用由从 G 映射到层潜在空间的群同态诱导,从而确保层级等变性。
- adjunction 性质将输入和输出的作用与第一层和最后一层的参数作用联系起来,使端到端对称性向内传递。
- 该框架与架构无关,适用于MLP和基于注意力的网络,并考虑跳跃连接和 ReLU 型可识别性等实际因素。
- 在CIFAR-10上的经验示例显示学习到的滤波器和注意力头反映出与理论一致的潜在等变性。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。