QUICK REVIEW

[論文レビュー] Improving Deep Neural Networks with Probabilistic Maxout Units

Jost Tobias Springenberg, Martin Riedmiller|arXiv (Cornell University)|Dec 20, 2013

Advanced Neural Network Applications参考文献 11被引用数 90

ひとこと要約

本論文は、入力の摂動に対して不変性を向上させつつ、maxoutの最適化およびドロップアウト正則化の優れた性質を保ちながら、maxoutユニットの確率的一般化である確率的マックスアウトユニット（probout）を提案する。この手法は、線形特徴マップ上でのソフトマックスに基づく確率的プーリング機構を用い、SVHNでデータ拡張なしに2.39%という最先端の分類精度を達成した。CIFAR-10およびCIFAR-100でも、先行研究を同等または上回る結果を示した。

ABSTRACT

We present a probabilistic variant of the recently introduced maxout unit. The success of deep neural networks utilizing maxout can partly be attributed to favorable performance under dropout, when compared to rectified linear units. It however also depends on the fact that each maxout unit performs a pooling operation over a group of linear transformations and is thus partially invariant to changes in its input. Starting from this observation we ask the question: Can the desirable properties of maxout units be preserved while improving their invariance properties ? We argue that our probabilistic maxout (probout) units successfully achieve this balance. We quantitatively verify this claim and report classification performance matching or exceeding the current state of the art on three challenging image classification benchmarks (CIFAR-10, CIFAR-100 and SVHN).

研究の動機と目的

部分的不変性を示すサブスペースプーリングに起因するmaxoutユニットの不変性特性を向上させつつ、その最適化およびドロップアウト正則化の利点を損なわないようにすること。
区分線形性を維持し、飽和を回避し、正の活性化を保ちながら、入力変換に対する耐性を高める確率的一般化を実現すること。
各ユニット内のk個の線形特徴マップ間で勾配の流れをより均等にすることにより、深層ネットワークにおける特徴の有効利用を向上させること。
標準的な画像分類ベンチマーク上で提案手法を評価し、最先端モデルと比較して競争力ある、あるいは優れた性能を示すこと。

提案手法

確率的マックスアウトユニットは、標準的なマックスアウトにおける決定的max演算を、k個の線形特徴マップ上でのソフトマックスに基づく確率的プーリングに置き換える。これにより、確率的活性化が可能になる。
各ユニットは、ソフトマックス関数を用いてk個の線形変換に対する確率分布を計算し、順伝播および逆伝播の際に確率的サンプリングが可能になる。
この手法は区分線形性を維持し、飽和を回避する。これにより、maxoutの最適化利点を保ちつつ、入力摂動に対する不変性が向上する。
逆伝播では、勾配がすべてのk個の特徴マップに均等に分配され、学習効率と特徴利用の向上が図られる。
モデルは標準的なバックプロパゲーションと交差エントロピー損失を用いて学習され、ドロップアウトアンサンブル性能を近似するために複数回の順伝播の平均化を用いてテストされる。
本手法は、k=5またはk=2次元のサブスペースプーリングを用いた畳み込み層および全結合層を用いて、CIFAR-10、CIFAR-100、SVHNで評価された。

実験結果

リサーチクエスチョン

RQ1maxoutユニットの確率的一般化は、ドロップアウトの最適化および正則化利点を損なわず、入力変換に対する不変性を向上させることができるか？
RQ2max演算を確率的プーリング機構に置き換えることで、各ユニット内のk個の線形特徴マップ間での勾配の流れが改善されるか？
RQ3提案された確率的マックスアウトユニットは、データ拡張なしに標準的な画像分類ベンチマークで最先端の性能を達成できるか？
RQ4平行移動および回転摂動下における、maxoutと確率的マックスアウトネットワークの特徴表現の不変性は、どのように比較されるか？

主な発見

確率的マックスアウトモデルは、データ拡張なしでSVHNデータセットにおいて2.39%のテスト誤差を達成し、現在の最先端レベルに一致し、元のmaxoutモデル（2.47%）を上回った。
CIFAR-10では、8.48%のテスト誤差を達成し、最高性能を報告したmaxoutモデルと同等の性能を示し、ReLUにドロップアウトを適用した他のベースラインを上回った。
CIFAR-100では、27.68%のテスト誤差を達成し、最先端レベルと競合する結果を示し、多数の強力なベースラインを著しく上回った。
特徴レベルの分析から、proboutネットワークは変換された画像と元の画像の特徴ベクトル間のユークリッド距離が顕著に小さいことが示され、平行移動および回転に対して強い不変性を示した。
全層にわたり、proboutの平均距離はmaxoutよりも一貫して低く、特に全結合層で顕著に改善されており、高レベル表現における耐性の向上が示された。
確率的定式化により、k個の特徴マップ間での勾配分布がより均等に分配され、トレーニング中にk次元サブスペース全体の有効利用が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。