Skip to main content
QUICK REVIEW

[论文解读] Techniques for Learning Binary Stochastic Feedforward Neural Networks

Tapani Raiko, Mathias Berglund|arXiv (Cornell University)|May 7, 2015
Neural Networks and Applications被引用 87
一句话总结

本文提出了两种新颖的梯度估计器,用于训练二值随机前馈神经网络,解决了通过随机单元反向传播的挑战。它表明,M=1采样会导致病态行为,并通过基准测试证明,所提出的估计器在训练稳定性和泛化性能方面优于现有方法。

ABSTRACT

Abstract: Stochastic binary hidden units in a multi-layer perceptron (MLP) network give at least three potential benefits when compared to deterministic MLP networks. (1) They allow to learn one-to-many type of mappings. (2) They can be used in structured prediction problems, where modeling the internal structure of the output is important. (3) Stochasticity has been shown to be an excellent regularizer, which makes generalization performance potentially better in general. However, training stochastic networks is considerably more difficult. We study training using M samples of hidden activations per input. We show that the case M=1 leads to a fundamentally different behavior where the network tries to avoid stochasticity. We propose two new estimators for the training gradient and propose benchmark tests for comparing training algorithms. Our experiments confirm that training stochastic networks is difficult and show that the proposed two estimators perform favorably among all the five known estimators.

研究动机与目标

  • 为解决使用随机二值隐藏单元的多层感知机训练困难的问题。
  • 克服M=1采样导致网络回避随机性的缺陷。
  • 提出并评估新的梯度估计器,以提升训练效率和性能。
  • 建立基准测试,用于比较随机网络中的训练算法。
  • 验证所提估计器相较于五种已知梯度估计器的优越性。

提出的方法

  • 为前馈网络中通过随机二值隐藏单元进行反向传播,提出两种新的梯度估计器。
  • 使用每输入M个隐藏激活样本估计梯度,特别分析了M=1的情况。
  • 提出理论和实证分析,表明M=1会导致训练过程中回避随机性。
  • 设计基准测试,以公平比较随机网络的不同训练算法。
  • 采用基于重参数化的方法,以降低梯度估计的方差。
  • 通过在结构化预测和泛化任务上的实证实验验证估计器。

实验结果

研究问题

  • RQ1为何使用M=1采样进行训练会导致网络回避随机性?
  • RQ2如何改进随机二值神经网络的梯度估计?
  • RQ3在实践中,五种已知梯度估计器中哪一种表现最佳?
  • RQ4能否设计出在训练稳定性和泛化性能方面优于现有方法的新估计器?
  • RQ5在随机网络中,比较训练算法时最有效的基准标准是什么?

主要发现

  • M=1情况导致网络表现出根本不同的训练行为,即主动回避随机性。
  • 在基准评估中,所提出的梯度估计器优于所有五种已知估计器。
  • 隐藏单元中的随机性能够学习到一对多映射,而确定性网络无法捕捉此类映射。
  • 由于随机性的正则化效应,随机网络表现出更优的泛化性能。
  • 所提出的估计器在结构化预测任务中实现了更好的训练稳定性和收敛性。
  • 实证结果证实,训练随机网络具有挑战性,但新估计器使其成为可行且高效的方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。