[论文解读] Probabilistic Binary Neural Networks
BLRNet 使用随机训练和局部重参数化,在二值权重和二值激活下训练神经网络,从而在测试时实现确定性 BIN 网络或在线集成以进行不确定性估计。
Low bit-width weights and activations are an effective way of combating the increasing need for both memory and compute power of Deep Neural Networks. In this work, we present a probabilistic training method for Neural Network with both binary weights and activations, called BLRNet. By embracing stochasticity during training, we circumvent the need to approximate the gradient of non-differentiable functions such as sign(), while still obtaining a fully Binary Neural Network at test time. Moreover, it allows for anytime ensemble predictions for improved performance and uncertainty estimates by sampling from the weight distribution. Since all operations in a layer of the BLRNet operate on random variables, we introduce stochastic versions of Batch Normalization and max pooling, which transfer well to a deterministic network at test time. We evaluate the BLRNet on multiple standardized benchmarks.
研究动机与目标
- 通过使用二值权重与激活来降低 DNN 的内存与计算需求的动机
- 提出一种处理不可微二值化的概率训练框架
- 引入适用于随机变量的随机版批量归一化和最大池化
- 实现测试时要么单一确定性二值网络,要么从学习到的权重分布中抽样的集成以获得更高的精度和不确定性估计
提出的方法
- 使用局部重参数化和 Concrete 分布对二值激活进行采样来训练随机 Binary Neural Network
- 在给定二值权重的情况下用中心极限定理将预激活建模为高斯分布,然后应用二值化以获得二值激活
- 定义面向随机变量的随机批量归一化和随机最大池化,并在测试时将参数转移到确定性的 BN/Pooling
- 通过从已训练的全精度网络迁移并裁剪到有效概率范围来初始化权重
- 提供确定性的 BLRNet (MAP) 与通过从 p(B) 采样多重量化实例得到的集成 BLRNet-X
- 采用贝叶斯解释并配合变分目标;可选使用方差正则化以倾向于较低权重不确定性
实验结果
研究问题
- RQ1是否可以通过一种不通过对符号操作求导的概率框架来有效训练二值权重与激活?
- RQ2如何为随机变量定义随机操作(BN、最大池化),并在测试时将其转换为确定性对应物?
- RQ3从权重分布中采样是否可以实现随时进行的集成预测和不确定性估计,而无需重新训练?
- RQ4在 MNIST 与 CIFAR-10 上,随机 BN 与权重转移初始化对性能的影响是什么?
- RQ5BLRNet 与全精度网络及现有二值网络在标准基准上的表现对比如何?
主要发现
- BLRNet 在 MNIST 与 CIFAR-10 上的准确率与基线二值网络相比具竞争力,在 CIFAR-10 的集成接近全精度表现
- BLRNet-2/5/16 的集成提高了准确率并提供了不确定性估计,BLRNet-16 在报告设置下达到 CIFAR-10 的 91.22%(非白盒)
- 随机 BN 与权重转移初始化显著提升了性能,相较于缺少这些组件的消融实验
- 测试时从权重分布采样得到的集成具有更高的准确性并且在不重新训练的情况下实现不确定性估计
- 在权重采样后重新估计批量统计是有效的,即使批次数很少(低至 5 次)
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。