Skip to main content
QUICK REVIEW

[论文解读] Probabilistic symmetries and invariant neural networks

Benjamin Bloem-Reddy, Yee Whye Teh|arXiv (Cornell University)|Jan 18, 2019
Neural Networks and Applications参考文献 109被引用 52
一句话总结

论文建立了一个将函数对称性与概率对称性联系起来的概率框架,给出在紧致群下不变和等变神经网络的精确表述,并提供一个构建序列、数组和图的对称模型的一般程序。

ABSTRACT

Treating neural network inputs and outputs as random variables, we characterize the structure of neural networks that can be used to model data that are invariant or equivariant under the action of a compact group. Much recent research has been devoted to encoding invariance under symmetry transformations into neural network architectures, in an effort to improve the performance of deep neural networks in data-scarce, non-i.i.d., or unsupervised settings. By considering group invariance from the perspective of probabilistic symmetry, we establish a link between functional and probabilistic symmetry, and obtain generative functional representations of probability distributions that are invariant or equivariant under the action of a compact group. Our representations completely characterize the structure of neural networks that can be used to model such distributions and yield a general program for constructing invariant stochastic or deterministic neural networks. We demonstrate that examples from the recent literature are special cases, and develop the details of the general program for exchangeable sequences and arrays.

研究动机与目标

  • 激发并形式化在群作用下尊重对称性(不变性或等变性)的神经网络架构。
  • 将函数对称性(确定性映射)与概率对称性(条件分布)联系起来。
  • 提供不变/等变条件分布的函数表示,以指导网络设计。
  • 开发适用于序列、数组和图的对称随机或确定性网络的一般构建方案。

提出的方法

  • 将函数对称性(函数的不变性/等变性)定义并与概率对称性(条件分布的不变性/等变性)联系起来。
  • 引入噪声外包的函数表述 Y = f(η, X),利用 η 独立于 X 来实现不变或等变条件分布。
  • 通过最大不变量 M(X) 表征不变条件分布,以及 (X, Y) a.s. = (X, f(η, M(X))) 的表示。
  • 通过表示 (X, Y) a.s. = (X, f(η, X)) 来表征等变条件分布,其中对所有 g in G,有 f 满足 g·Y = f(η, g·X)。
  • 专门化到可交换的序列/数组/图,并给出 canonical 形式(例如,经验测度、规范 CX、代表性等变体)。
  • 讨论构建对称网络的实际考虑,以及随机性和函数类选择的作用。

实验结果

研究问题

  • RQ1在群作用 G 下,Y|X 成为不变或等变的必要充要的概率条件是什么?
  • RQ2不变/等变条件分布如何在函数上表示,包括噪声外包形式?
  • RQ3最大不变量与充要性概念如何使尊重对称性的实用神经网络架构成为可能?
  • RQ4如何将该框架专门化到可交换的序列、数组和图,以产出具体的网络设计?
  • RQ5在对称结构中选择函数类并引入随机性有哪些指导原则?

主要发现

  • 给定可交换输入的不变条件分布存在噪声外部实现的函数表示 Y = f(η, MX),其中 η 独立于 X。
  • 在可交换输入下的等变条件分布通过对 η 与 MX 的函数来保持置换结构的表示,且对 f 有适当的对称性约束。
  • 对于一般的紧致群,不变和等变条件分布可以通过最大不变量 M(X) 与代表性等变体来表示,从而实现系统的神经网络构建。
  • 经验测度和规范形式在作为最大不变量时起核心作用,捕获置换下的所有相关信息。
  • 框架扩展到可交换矩阵、图和高维数组,提供等价的规范表示(CANON、CX)和广播特征以实现对称性。
  • 该方法提供一个统一的、概率性的视角,将现有不变架构作为特例,并为对称网络设计提供一个一般性程序。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。