[论文解读] BiBench: Benchmarking and Analyzing Network Binarization
BiBench 提供一个全面的基准,用以在多任务、多体系结构、多失真、多训练设置和硬件环境下比较 8 种二值化算法,揭示算子层级对准确性和效率的影响。
Network binarization emerges as one of the most promising compression approaches offering extraordinary computation and memory savings by minimizing the bit-width. However, recent research has shown that applying existing binarization algorithms to diverse tasks, architectures, and hardware in realistic scenarios is still not straightforward. Common challenges of binarization, such as accuracy degradation and efficiency limitation, suggest that its attributes are not fully understood. To close this gap, we present BiBench, a rigorously designed benchmark with in-depth analysis for network binarization. We first carefully scrutinize the requirements of binarization in the actual production and define evaluation tracks and metrics for a comprehensive and fair investigation. Then, we evaluate and analyze a series of milestone binarization algorithms that function at the operator level and with extensive influence. Our benchmark reveals that 1) the binarized operator has a crucial impact on the performance and deployability of binarized networks; 2) the accuracy of binarization varies significantly across different learning tasks and neural architectures; 3) binarization has demonstrated promising efficiency potential on edge devices despite the limited hardware support. The results and analysis also lead to a promising paradigm for accurate and efficient binarization. We believe that BiBench will contribute to the broader adoption of binarization and serve as a foundation for future research. The code for our BiBench is released https://github.com/htqin/BiBench .
研究动机与目标
- 在生产环境中为网络二值化定义实际需求和评价轨道。
- 评估二值化算子在不同任务和体系结构中对准确性、效率和可部署性的影响。
- 评估二值化网络对数据损坏的鲁棒性以及硬件部署的可行性。
- 提供设计高准确性与高效率的二值化算法的见解与指南。
提出的方法
- 选择 8 种有影响力的算子级二值化算法,涵盖缩放因子、参数再分配和梯度近似。
- 在 9 个数据集、13 种神经网络体系结构、2 个部署库、14 种硬件芯片以及不同超参数条件下对这些算法进行基准测试。
- 定义 6 条评估轨道(Learning Task, Neural Architecture, Corruption Robustness, Training Consumption, Theoretical Complexity, Hardware Inference),并使用统一的指标。
- 使用全精度基线计算各轨道的平均相对准确度和二次均值作为总体指标。
- 在 PyTorch 中实现训练/推理管道,采用标准化的预训练、微调和 ONNX 导出以用于评估。
实验结果
研究问题
- RQ1二值化准确性如何在不同学习任务和数据模态之间变化?
- RQ2神经体系结构的选择(CNN、Transformer、MLP)如何影响二值化性能?
- RQ3数据损坏对二值化网络与全精度模型相比的影响是什么?
- RQ4二值化网络的实际训练成本和硬件部署的可行性是什么?
- RQ5是否存在一种兼顾准确性与效率的有效二值化算子的通用设计范式?
主要发现
- 二值化算子对性能有决定性影响,同一算法在不同任务间存在较大准确性差异(如 GLUE 与 ShapeNet)。
- 基于 Transformer 的体系结构在二值化方面尤为具有挑战性,而 CNN 和 MLP 可以达到更高比例的全精度准确度。
- 二值化网络在 CIFAR10-C 上对损坏的鲁棒性可与全精度模型相当,且有时取决于算法甚至超越它们。
- 训练成本各异;某些算法对超参数较为稳定,而其他算法由于梯度近似技术而导致显著的训练时间增加。
- 在边缘设备上,硬件部署受可用推理库的限制,但在得到支持时,二值化在存储和推理加速方面展现出显著潜力。
- FDA 与 ReActNet 方法在 CNN 和 Transformer 之间提供稳定性优势,指示一种实际的算子设计范式。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。