[論文レビュー] Probabilistic Binary Neural Networks
BLRNetは、確率的な学習と局所再パラメータ化を用いてバイナリ重みとバイナリ活性化を持つニューラルネットワークを訓練し、テスト時に決定論的BINネットを得られるか、または不確実性推定のためのオンラインアンサンブルを実現します。
Low bit-width weights and activations are an effective way of combating the increasing need for both memory and compute power of Deep Neural Networks. In this work, we present a probabilistic training method for Neural Network with both binary weights and activations, called BLRNet. By embracing stochasticity during training, we circumvent the need to approximate the gradient of non-differentiable functions such as sign(), while still obtaining a fully Binary Neural Network at test time. Moreover, it allows for anytime ensemble predictions for improved performance and uncertainty estimates by sampling from the weight distribution. Since all operations in a layer of the BLRNet operate on random variables, we introduce stochastic versions of Batch Normalization and max pooling, which transfer well to a deterministic network at test time. We evaluate the BLRNet on multiple standardized benchmarks.
研究の動機と目的
- memoryと計算量の削減を、二値重みと二値活性化の使用でDNNに対して動機づける。
- 非微分可能なバイナリゼーションを扱う確率的トレーニングフレームワークを提案する。
- 乱数変数に適した確率的なBatch Normalizationと最大プーリングを導入する。
- 学習済みの重み分布からのアンサンブルを用いたテスト時に、単一の決定論的バイナリネットまたはアンサンブルを可能にして、精度と不確実性推定を改善する。
提案手法
- 局所再パラメータ化とConcrete分布を用いて確率的Binary Neural Networkを訓練し、バイナリ活性化をサンプルする。
- 二値重みに対して中心極限定理(CLT)により前処置をガウスとしてモデル化し、次に二値化を適用して二値活性化を得る。
- 乱数変数のための確率的なBNと確率的なMax Poolingを定義し、テスト時にはパラメータを決定論的なBN/Poolingへ転送する。
- 有効な確率範囲へクリッピングした前処理済み全精度ネットワークから重みを転送して初期化する。
- 決定論的BLRNet (MAP) と、p(B)から複数の重み実体化をサンプリングして得られるアンサンブルBLRNet-Xを提供する。
- 変分目的関数を用いたベイズ的解釈を採用し、任意で分散正則化を使用して重みの不確実性を低くバイアスする。
実験結果
リサーチクエスチョン
- RQ1符号演算を微分することなしに、確率的フレームワークを介して二値重みと活性化を効果的に訓練できるか。
- RQ2乱数変数のための確率的操作(BN, max pooling)を定義し、それをテスト時には決定論的な対応へ変換できるか。
- RQ3重み分布からのサンプリングは再訓練なしでいつでもアンサンブル予測と不確実性推定を可能にするか。
- RQ4MNISTとCIFAR-10に対する確率的BNと重み転送初期化の影響はどの程度か。
- RQ5BLRNetは標準ベンチマークでフル精度ネットと既存の二値ネットと比較してどうか。
主な発見
| Model | mnist | cifar-10 | cifar-10 (white) |
|---|---|---|---|
| 二値化 NN | 99.17% | 88.17% | 88.56% |
| BLRNet-map | 99.00% | 88.61% | 88.96% |
| BLRNet-2 | 99.09±0.05% | 89.51±0.25% | 89.78±0.16% |
| BLRNet-5 | 99.13±0.03% | 90.66±0.12% | 90.48±0.13% |
| BLRNet-16 | 99.15±0.03% | 91.22±0.08% | 90.82±0.08% |
| FPNet | 99.48% | 92.36% | 92.45% |
- BLRNetはMNISTおよびCIFAR-10において、ベースラインの二値化ネットワークと競合する精度を達成し、アンサンブルを用いるとCIFAR-10でフル・プレシジョンに近づく。
- BLRNet-2/5/16のアンサンブルは精度を改善し、不確実性推定を提供する。BLRNet-16はCIFAR-10(非ホワイト)で91.22%に到達した(報告設定)。
- 確率的BNと重み転送初期化は、これらの要素なしのアブレーションと比較して性能を大幅に向上させる。
- テスト時の重み分布からのサンプリングは、再訓練なしで精度を向上させるアンサンブルを生み出し、不確実性推定を有効にする。
- 重みサンプリング後にバッチ統計を再推定することは効果的であり、少数のバッチ(5枚程度)でも有効である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。