[论文解读] Packed-Ensembles for Efficient Uncertainty Estimation
本文提出Packed-Ensembles(PE),一种计算效率高的深度学习架构,通过使用分组卷积将多个独立的子网络打包到单一共享主干网络中,实现与Deep Ensembles(DE)相当的高性能不确定性估计,同时显著减少参数量和推理时间。PE在参数量和硬件开销极低的情况下,实现了最先进的准确率、校准性能、分布外检测能力以及对分布偏移的鲁棒性。
Deep Ensembles (DE) are a prominent approach for achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower-capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single shared backbone and forward pass to improve training and inference speeds. PE is designed to operate within the memory limits of a standard neural network. Our extensive research indicates that PE accurately preserves the properties of DE, such as diversity, and performs equally well in terms of accuracy, calibration, out-of-distribution detection, and robustness to distribution shift. We make our code available at https://github.com/ENSTA-U2IS/torch-uncertainty.
研究动机与目标
- 为解决深度集成(DE)在硬件资源受限的真实安全关键系统中计算成本过高的问题。
- 在大幅减少模型大小和推理时间的同时,保留DE的预测不确定性与多样性特性。
- 设计一种结构化、轻量化的集成架构,使其在标准神经网络的内存与计算约束下运行。
- 证明Packed-Ensembles在准确率、校准性能、分布外检测以及对分布偏移的鲁棒性方面,可达到或超越DE的性能。
提出的方法
- Packed-Ensembles利用分组卷积将单个主干网络划分为多个独立的子网络,每个子网络具有非共享权重。
- 各子网络使用共享的批量数据进行端到端训练,支持并行推理并减少参数量。
- 该方法采用混合精度训练,进一步加速训练与推理过程,且不损失性能。
- 子网络作为整体进行选择,依据集成验证准确率,确保整体性能最优。
- 该架构通过分组卷积形式化为一种结构化稀疏模式,包含超参数α(宽度缩放)、M(子网络数量)和γ(组数)。
- 该方法可实现一次前向传播同时计算所有子网络的预测结果,以极低的成本模拟完整集成的效果。
实验结果
研究问题
- RQ1单一神经网络架构是否能在显著减少参数量和推理时间的前提下,实现与Deep Ensembles相当的不确定性估计性能?
- RQ2通过分组卷积构建独立子网络的方法,是否能保留Deep Ensembles的多样性与预测不确定性特性?
- RQ3与DE及其他高效基线模型相比,Packed-Ensembles在分布偏移和分布外检测任务中的表现如何?
- RQ4即使参数量远少于完整DE,Packed-Ensembles是否仍能在多个随机种子下保持高稳定性和低方差?
主要发现
- 在CIFAR-100上,Packed-Ensembles实现了最先进的不确定性量化性能,准确率达到90.0%,校准性能(ECE为0.0087)与Deep Ensembles相当,但仅使用2360万参数。
- 在ImageNet-1k上,PE-(3,4,1)架构仅使用5910万参数和92.9亿次乘加操作,显著优于ResNeXt-50(准确率90.4%)和MIMO(AUC 94.9%)在效率与性能上的表现。
- 在分布偏移设置(CIFAR-100-C)下,Packed-Ensembles在严重程度为5时保持最高准确率(85.2%)和最低ECE(0.021),优于DE与ResNeXt-50。
- 在回归任务中,Packed-Ensembles在所有UCI数据集上的RMSE与NLL值几乎与Deep Ensembles完全一致,RMSE差异在0.05以内,NLL差异也在0.05以内。
- Packed-Ensembles的预测方差显著降低(0.19%),远低于单个DNN(0.68%)和Deep Ensembles(0.43%),表明其具有更高的稳定性。
- 实证结果证实,随机权重初始化与随机优化已足够生成多样化的子网络,即使在共享批量数据下也成立,验证了该方法设计的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。