[论文解读] Rotated Binary Neural Network
RBNN 通过在每个训练轮次应用权重旋转实现双旋转方案,减少满精度权重及其二值化版本之间的角度偏差,从而提高 CIFAR-10 和 ImageNet 上的二值网络准确性。
Binary Neural Network (BNN) shows its predominance in reducing the complexity of deep neural networks. However, it suffers severe performance degradation. One of the major impediments is the large quantization error between the full-precision weight vector and its binary vector. Previous works focus on compensating for the norm gap while leaving the angular bias hardly touched. In this paper, for the first time, we explore the influence of angular bias on the quantization error and then introduce a Rotated Binary Neural Network (RBNN), which considers the angle alignment between the full-precision weight vector and its binarized version. At the beginning of each training epoch, we propose to rotate the full-precision weight vector to its binary vector to reduce the angular bias. To avoid the high complexity of learning a large rotation matrix, we further introduce a bi-rotation formulation that learns two smaller rotation matrices. In the training stage, we devise an adjustable rotated weight vector for binarization to escape the potential local optimum. Our rotation leads to around 50% weight flips which maximize the information gain. Finally, we propose a training-aware approximation of the sign function for the gradient backward. Experiments on CIFAR-10 and ImageNet demonstrate the superiorities of RBNN over many state-of-the-arts. Our source code, experimental settings, training logs and binary models are available at https://github.com/lmbxmu/RBNN.
研究动机与目标
- 通过解决满精度权重及其二值化对应物之间的角度偏差,推动 Binary Neural Networks (BNNs) 的量化误差降低。
- 提出一种基于旋转的框架,将权重与二值顶点对齐,以最小化角度差异。
- 引入一种计算上高效的双旋转方案,通过两个较小的旋转矩阵实现大范围旋转。
- 开发一个训练感知的梯度近似,以实现对二值化的有效反向传播。
提出的方法
- 在每个训练轮开始时,对满精度权重向量 w i 乘以一个旋转矩阵 R i,以最小化角度在 R i^T w i 与 sign(R i^T w i) 之间的关系。
- 使用双旋转结构 R i = R1 i ⊗ R2 i,其中 R1 i ∈ R^{n1×n1},R2 i ∈ R^{n2×n2},n i = n1 i · n2 i,以降低复杂度。
- 在正交性约束下,交替优化 B W′ i、R1 i、R2 i,最大化 tr(B W′ i (R2 i)^T (W i)^T R1 i),由而得到 B W′ i = sign((R1 i)^T W i R2 i),且 R1 i、R2 i 通过基于 SVD 的极分解来更新。
- 引入一个可调的旋转权重向量:w̃ i = w i + ((R i)^T w i − w i) · α i,以动态引导二值化并避免局部最优,α i ∈ [0,1]。
- 提供一个训练感知的梯度近似 F(x) 以实现对二值化的反向传播,导数 F′(x) 针对训练进度(e ∕ E)进行定制。
- 计算 w i、α i 及辅助量的梯度,以实现 RBNN 的端到端训练。
实验结果
研究问题
- RQ1通过在每个训练轮对权重进行旋转以与二值顶点对齐,是否能够降低满精度权重与其二值化版本之间的角度偏差?
- RQ2双旋转方法(两个小旋转矩阵)是否能够高效且有效地近似实现用于权重对齐的较大旋转?
- RQ3相较于现有的 BNN 方法,在 CIFAR-10 和 ImageNet 上,训练感知的二值化和可调的旋转权重是否提升了准确性?
主要发现
- RBNN 在 CIFAR-10 的 ResNet-18、ResNet-20 和 VGG-small 等模型的可比位数设置中持续超越若干最先进的 BNN。
- 在 ImageNet 上,RBNN 分别在 ResNet-18 和 ResNet-34 上相对 IR-Net 实现了顶1和顶5 的改进。
- 双旋转方案能够以更低的内存与计算开销实现对大角度旋转的高效近似。
- 训练感知的梯度近似相对于 STE、PPF 和 EDE,在通过二值化的反向传播方面有更强的效果。
- 权重旋转使每层的权重翻转约达到 50%,在训练过程中最大化信息增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。