Skip to main content
QUICK REVIEW

[论文解读] Sparse Group Restricted Boltzmann Machines

Heng Luo, Ruimin Shen|arXiv (Cornell University)|Aug 30, 2010
Generative Adversarial Networks and Image Synthesis参考文献 19被引用 32
一句话总结

本文通过在隐藏单元的激活概率上应用 $l_1/l_2$ 正则化,提出了一种稀疏组受限玻尔兹曼机(SG-RBMs),在组级别和单个单元级别均实现了稀疏性。该方法提升了生成建模与特征学习能力,在使用两层稀疏组深度玻尔兹曼机的情况下,于排列不变的 MNIST 任务上实现了当前最优的 0.84% 错误率。

ABSTRACT

Since learning is typically very slow in Boltzmann machines, there is a need to restrict connections within hidden layers. However, the resulting states of hidden units exhibit statistical dependencies. Based on this observation, we propose using $l_1/l_2$ regularization upon the activation possibilities of hidden units in restricted Boltzmann machines to capture the loacal dependencies among hidden units. This regularization not only encourages hidden units of many groups to be inactive given observed data but also makes hidden units within a group compete with each other for modeling observed data. Thus, the $l_1/l_2$ regularization on RBMs yields sparsity at both the group and the hidden unit levels. We call RBMs trained with the regularizer \emph{sparse group} RBMs. The proposed sparse group RBMs are applied to three tasks: modeling patches of natural images, modeling handwritten digits and pretaining a deep networks for a classification task. Furthermore, we illustrate the regularizer can also be applied to deep Boltzmann machines, which lead to sparse group deep Boltzmann machines. When adapted to the MNIST data set, a two-layer sparse group Boltzmann machine achieves an error rate of $0.84\%$, which is, to our knowledge, the best published result on the permutation-invariant version of the MNIST task.

研究动机与目标

  • 为解决标准 RBMs 在捕捉隐藏单元依赖关系方面存在的局限性,同时保持高效推理。
  • 开发一种正则化方法,不仅在组级别,而且在隐藏单元组内部诱导稀疏性。
  • 通过在 RBMs 中利用结构化稀疏性,提升生成建模与特征学习能力。
  • 将所提出的正则化方法扩展至深度玻尔兹曼机,以提升分类任务的性能。

提出的方法

  • 在 RBMs 的隐藏单元激活概率上应用 $l_1/l_2$ 正则化,以促进组内与个体的稀疏性。
  • 利用逻辑微分方程证明 $l_1/l_2$ 正则化可在组级别与单元级别同时诱导稀疏性。
  • 通过对比发散法(Contrastive Divergence)训练 SG-RBMs,采用 $k=1$ 次 Gibbs 采样步骤以实现高效的参数更新。
  • 将正则化方法适配至深度玻尔兹曼机,构建稀疏组深度玻尔兹曼机。
  • 使用 Hoyer 的稀疏度度量方法,对学习到的表征的稀疏性进行定量评估。
  • 采用退火重要性采样(annealed importance sampling)近似计算分区函数并评估对数似然值。

实验结果

研究问题

  • RQ1$l_1/l_2$ 正则化在隐藏单元激活概率上的应用,是否能在组级别与个体单元级别同时诱导稀疏性?
  • RQ2所提出的稀疏组 RBM 在图像数据上的生成建模性能是否优于标准 RBMs?
  • RQ3稀疏组 RBMs 是否能为下游分类任务学习到更具判别性的特征?
  • RQ4将该正则化方法用于预训练深层前馈网络时,是否能提升性能?
  • RQ5该方法是否可扩展至深度玻尔兹曼机,以实现当前最优结果?

主要发现

  • 在 MNIST 数据集上,SG-RBM 的平均测试对数概率为 -104(组大小为 3),显著低于标准 RBM 的 -123,表明其生成建模能力更优。
  • SG-RBM 学习到的表征平均稀疏度为 0.68(组大小为 3),远超标准 RBM 的 0.50,证实了其稀疏性显著增强。
  • 两层稀疏组深度玻尔兹曼机在 MNIST 上实现了 0.84% 的测试错误率,是排列不变版本任务中已发表的最佳结果。
  • 使用 SG-RBMs(组大小为 3)对 784-600-600-2100 网络进行预训练,得到 0.89% 的错误率,优于标准 RBM 预训练(1.14%)与稀疏 RBM 预训练(1.81%)。
  • 组大小为 10 的稀疏组深度玻尔兹曼机实现了 0.84% 的错误率,优于相同架构下未正则化的深度玻尔兹曼机(错误率为 0.95%)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。