[论文解读] IR-Net: Forward and Backward Information Retention for Highly Accurate Binary Neural Networks
IR-Net 提出了一种新颖的框架,通过在前向传播和反向传播中同时最小化信息损失,来提升二值化神经网络的精度。它引入了 Libra 参数二值化(Libra-PB)以实现权重的均衡量化,并提出了误差衰减估计器(Error Decay Estimator),在反向传播过程中逐步逼近符号函数,从而在 CIFAR-10 和 ImageNet 上实现了最先进(SOTA)的性能表现。
Weight and activation binarization is an effective approach to deep neural network compression and can accelerate the inference by leveraging bitwise operations. Although many binarization methods have improved the accuracy of the model by minimizing the quantization error in forward propagation, there remains a noticeable performance gap between the binarized model and the full-precision one. Our empirical study indicates that the quantization brings information loss in both forward and backward propagation, which is the bottleneck of training accurate binary neural networks. To address these issues, we propose an Information Retention Network (IR-Net) to retain the information that consists in the forward activations and backward gradients. IR-Net mainly relies on two technical contributions: (1) Libra Parameter Binarization (Libra-PB): simultaneously minimizing both quantization error and information loss of parameters by balanced and standardized weights in forward propagation; (2) Error Decay Estimator (EDE): minimizing the information loss of gradients by gradually approximating the sign function in backward propagation, jointly considering the updating ability and accurate gradients. We are the first to investigate both forward and backward processes of binary networks from the unified information perspective, which provides new insight into the mechanism of network binarization. Comprehensive experiments with various network structures on CIFAR-10 and ImageNet datasets manifest that the proposed IR-Net can consistently outperform state-of-the-art quantization methods.
研究动机与目标
- 通过分析前向传播和反向传播中的信息损失,解决二值化网络与全精度网络之间长期存在的精度差距。
- 研究量化在二值化神经网络推理和训练过程中双重导致的信息损失机制。
- 开发一种统一的信息保留框架,通过保留关键梯度和激活信号来提升模型精度。
- 通过将前向和反向过程视为相互关联的信息流,为网络二值化机制提供新的见解。
提出的方法
- 提出 Libra 参数二值化(Libra-PB),通过标准化和平衡网络权重的尺度,最小化前向传播过程中的量化误差和信息损失。
- 提出误差衰减估计器(EDE),作为符号函数的可微分近似,逐步减少反向传播过程中梯度的量化误差。
- EDE 在训练的各个周期中动态调整符号函数的近似程度,平衡梯度精度与优化稳定性。
- 该方法联合优化参数和梯度的信息保留,将二值化视为一种信息保持的变换,而非有损操作。
- 采用统一的训练目标,整合 Libra-PB 和 EDE,以在前向和反向传播中保持信号保真度。
- 将该框架应用于多种网络架构,在 CIFAR-10 和 ImageNet 基准测试中均实现了稳定提升。
实验结果
研究问题
- RQ1在前向和反向传播中,由量化引起的信息损失如何影响二值化神经网络的精度?
- RQ2统一的信息保留策略是否能够同时提升参数和梯度的保真度?
- RQ3均衡权重二值化与自适应梯度近似在多大程度上能协同提升模型性能?
- RQ4在反向传播中逐步逼近符号函数,是否能带来比标准二值化方法更优的优化效果和更高精度?
主要发现
- IR-Net 在 CIFAR-10 和 ImageNet 数据集上始终优于当前最先进(SOTA)的量化方法。
- 所提出的 Libra-PB 方法显著降低了参数量化误差,并改善了权重分布的平衡性,从而提升了训练稳定性。
- 误差衰减估计器通过逐步优化符号函数的近似,有效减少了梯度的信息损失。
- 实证结果表明,同时处理前向和反向传播中的信息损失,相比仅关注单方向的方法,能带来显著的精度提升。
- 全面的消融实验验证了 Libra-PB 和 EDE 在整体性能提升中具有协同增效作用。
- 该框架在二值化 ResNet 和 VGG 架构上均实现了最先进精度,证明了其在不同网络结构上的良好泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。