Skip to main content
QUICK REVIEW

[论文解读] Expressive Power and Approximation Errors of Restricted Boltzmann Machines

Guido Montúfar, Johannes Rauh|arXiv (Cornell University)|Jun 12, 2014
Generative Adversarial Networks and Image Synthesis参考文献 26被引用 39
一句话总结

本文建立了任意目标概率分布与受限玻尔兹曼机(RBM)所能实现的最佳近似之间最大Kullback-Leibler散度的显式上界,该RBM包含$n$个可见单元和$m$个隐藏单元。通过分析输入空间${0,1}^n$上立方体划分的独立分布混合子模型,作者推导出近似误差的上界为$n - \lfloor \log(m+1) \rfloor - \frac{m+1}{2^{\lfloor \log(m+1) \rfloor}} \approx (n-1) - \log(m+1)$,为根据所需误差容限选择RBM大小提供了理论依据。

ABSTRACT

We present explicit classes of probability distributions that can be learned by Restricted Boltzmann Machines (RBMs) depending on the number of units that they contain, and which are representative for the expressive power of the model. We use this to show that the maximal Kullback-Leibler divergence to the RBM model with $n$ visible and $m$ hidden units is bounded from above by $n - \left\lfloor \log(m+1) ight floor - \frac{m+1}{2^{\left\lfloor\log(m+1) ight floor}} \approx (n -1) - \log(m+1)$. In this way we can specify the number of hidden units that guarantees a sufficiently rich model containing different classes of distributions and respecting a given error tolerance.

研究动机与目标

  • 理解具有有限隐藏单元的受限玻尔兹曼机(RBM)的表达能力。
  • 识别RBM能够表示的概率分布的显式类别,特别是输入空间${0,1}^n$上立方体划分的独立模型混合类。
  • 量化使用$n$个可见单元和$m$个隐藏单元的RBM表示任意分布时的最坏情况近似误差。
  • 为实际应用中实现期望误差容限提供理论指导,以选择隐藏单元的数量。

提出的方法

  • 作者分析了由输入空间${0,1}^n$上立方体划分的独立分布混合构成的RBM子模型。
  • 通过归纳法和划分论证,推导出任意分布到这些子模型中最近分布的Kullback-Leibler散度的上界。
  • 该上界通过将输入空间划分为大小为$2^{n_i}$的块获得,其中$n_i$表示每一块中的变量数,并对各部分误差贡献求和。
  • 证明最优划分对应于$\lfloor \log(m+1) \rfloor$个大小为$2^{k-1}$的块,其余部分大小为$2^k$,其中$k = n - \lfloor \log(m+1) \rfloor$。
  • 通过在这些划分上最小化总误差,得到最终上界表达式$n - \lfloor \log(m+1) \rfloor - \frac{m+1}{2^{\lfloor \log(m+1) \rfloor}}$。
  • 分析利用了关于RBM模型维数及其中统计流形几何的已知结果。

实验结果

研究问题

  • RQ1具有$n$个可见单元和$m$个隐藏单元的RBM能够表示哪些类别的概率分布?
  • RQ2任意分布与其在RBM模型中最佳近似之间的最坏情况Kullback-Leibler散度是多少?
  • RQ3如何选择隐藏单元数量,以保证达到期望的近似误差容限?
  • RQ4RBM的表达能力是否可以通过结构化划分上的独立分布混合来刻画?

主要发现

  • 任意分布与其在$\operatorname{RBM}_{n,m}$中最佳近似之间的最大Kullback-Leibler散度,其上界为$n - \lfloor \log(m+1) \rfloor - \frac{m+1}{2^{\lfloor \log(m+1) \rfloor}}$。
  • 该上界近似为$(n-1) - \log(m+1)$,为误差容限提供了实用估算。
  • 该上界通过分析输入空间上$m+1$个独立分布的立方体划分混合得到。
  • 该结果意味着,对于给定的误差容限,可计算出实现该容限所需的最少隐藏单元数。
  • 计算机实验表明,该上界能捕捉到真实近似误差的数量级,尤其在小$n$时表现良好。
  • 该上界比先前估计更紧致,并纠正了此前一个错误——该错误将上界高估了不到0.1。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。