QUICK REVIEW

[論文レビュー] Techniques for Learning Binary Stochastic Feedforward Neural Networks

Tapani Raiko, Mathias Berglund|arXiv (Cornell University)|May 7, 2015

Neural Networks and Applications被引用数 87

ひとこと要約

本論文は、二値確率的フィードフォワードニューラルネットワークを学習するための2つの新しい勾配推定器を提案し、確率的ユニットを通過する誤差逆伝播の課題に対処する。M=1のサンプリングが病理的行動を引き起こすことが示され、ベンチマークを通じて、提案された推定器が訓練安定性および汎化性能において既存手法を上回ることを示している。

ABSTRACT

Abstract: Stochastic binary hidden units in a multi-layer perceptron (MLP) network give at least three potential benefits when compared to deterministic MLP networks. (1) They allow to learn one-to-many type of mappings. (2) They can be used in structured prediction problems, where modeling the internal structure of the output is important. (3) Stochasticity has been shown to be an excellent regularizer, which makes generalization performance potentially better in general. However, training stochastic networks is considerably more difficult. We study training using M samples of hidden activations per input. We show that the case M=1 leads to a fundamentally different behavior where the network tries to avoid stochasticity. We propose two new estimators for the training gradient and propose benchmark tests for comparing training algorithms. Our experiments confirm that training stochastic networks is difficult and show that the proposed two estimators perform favorably among all the five known estimators.

研究の動機と目的

確率的二値隠れユニットを備えたマルチレイヤーパーセプトロンの学習の難しさに対処すること。
M=1のサンプリングがネットワークが確率的性質を避ける原因となる問題を克服すること。
訓練効率および性能を向上させる新しい勾配推定器の提案と評価すること。
確率的ネットワークにおける訓練アルゴリズムを比較するためのベンチマークテストを確立すること。
提案された推定器が5つの既知の勾配推定器を上回ることを検証すること。

提案手法

フィードフォワードネットワーク内の確率的二値隠れユニットを通過する誤差逆伝播のための2つの新しい勾配推定器を提案する。
各入力に対してM個の隠れユニット活性化をサンプリングして勾配を推定し、特にM=1の場合の特別な解析を実施する。
M=1が訓練中に確率的性質の回避を引き起こす理論的および実験的分析を導入する。
確率的ネットワークの異なる訓練アルゴリズムを公正に比較するためのベンチマークテストを設計する。
勾配推定の分散を低減する再パrameterizationに基づくアプローチを採用する。
構造的予測および汎化タスクにおける実験を通じて推定器を検証する。

実験結果

リサーチクエスチョン

RQ1なぜM=1のサンプリングによる学習ではネットワークが確率的性質を避けるのか？
RQ2確率的二値ニューラルネットワークにおける勾配推定をどのように改善できるか？
RQ35つの既知の勾配推定器の中で実際にはどれが最も優れているか？
RQ4既存のものより訓練安定性および汎化性能に優れる新しい推定器を設計できるか？
RQ5確率的ネットワークにおける訓練アルゴリズムを比較する際、どのベンチマーク基準が最も効果的か？

主な発見

M=1の場合、ネットワークが確率的性質を積極的に避ける根本的に異なる訓練行動が生じる。
ベンチマーク評価において、提案された勾配推定器は5つの既知の推定器をすべて上回る。
隠れユニットの確率的性質により、1対多のマッピングの学習が可能となり、決定的ネットワークでは捉えきれない。
確率的性質の正則化効果により、確率的ネットワークは汎化性能が向上する。
提案された推定器は、構造的予測タスクにおいてより優れた訓練安定性と収束性を達成する。
実験的結果は、確率的ネットワークの学習が困難であるが、新しい推定器のおかげで実現可能かつ効果的であることを確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。