Skip to main content
QUICK REVIEW

[论文解读] Packed-Ensembles for Efficient Uncertainty Estimation

Olivier Laurent, Adrien Lafage|arXiv (Cornell University)|Oct 17, 2022
Anomaly Detection Techniques and Applications被引用 10
一句话总结

本文提出Packed-Ensembles(PE),一种计算效率高的深度学习架构,通过使用分组卷积将多个独立的子网络打包到单一共享主干网络中,实现与Deep Ensembles(DE)相当的高性能不确定性估计,同时显著减少参数量和推理时间。PE在参数量和硬件开销极低的情况下,实现了最先进的准确率、校准性能、分布外检测能力以及对分布偏移的鲁棒性。

ABSTRACT

Deep Ensembles (DE) are a prominent approach for achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower-capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single shared backbone and forward pass to improve training and inference speeds. PE is designed to operate within the memory limits of a standard neural network. Our extensive research indicates that PE accurately preserves the properties of DE, such as diversity, and performs equally well in terms of accuracy, calibration, out-of-distribution detection, and robustness to distribution shift. We make our code available at https://github.com/ENSTA-U2IS/torch-uncertainty.

研究动机与目标

  • 为解决深度集成(DE)在硬件资源受限的真实安全关键系统中计算成本过高的问题。
  • 在大幅减少模型大小和推理时间的同时,保留DE的预测不确定性与多样性特性。
  • 设计一种结构化、轻量化的集成架构,使其在标准神经网络的内存与计算约束下运行。
  • 证明Packed-Ensembles在准确率、校准性能、分布外检测以及对分布偏移的鲁棒性方面,可达到或超越DE的性能。

提出的方法

  • Packed-Ensembles利用分组卷积将单个主干网络划分为多个独立的子网络,每个子网络具有非共享权重。
  • 各子网络使用共享的批量数据进行端到端训练,支持并行推理并减少参数量。
  • 该方法采用混合精度训练,进一步加速训练与推理过程,且不损失性能。
  • 子网络作为整体进行选择,依据集成验证准确率,确保整体性能最优。
  • 该架构通过分组卷积形式化为一种结构化稀疏模式,包含超参数α(宽度缩放)、M(子网络数量)和γ(组数)。
  • 该方法可实现一次前向传播同时计算所有子网络的预测结果,以极低的成本模拟完整集成的效果。

实验结果

研究问题

  • RQ1单一神经网络架构是否能在显著减少参数量和推理时间的前提下,实现与Deep Ensembles相当的不确定性估计性能?
  • RQ2通过分组卷积构建独立子网络的方法,是否能保留Deep Ensembles的多样性与预测不确定性特性?
  • RQ3与DE及其他高效基线模型相比,Packed-Ensembles在分布偏移和分布外检测任务中的表现如何?
  • RQ4即使参数量远少于完整DE,Packed-Ensembles是否仍能在多个随机种子下保持高稳定性和低方差?

主要发现

  • 在CIFAR-100上,Packed-Ensembles实现了最先进的不确定性量化性能,准确率达到90.0%,校准性能(ECE为0.0087)与Deep Ensembles相当,但仅使用2360万参数。
  • 在ImageNet-1k上,PE-(3,4,1)架构仅使用5910万参数和92.9亿次乘加操作,显著优于ResNeXt-50(准确率90.4%)和MIMO(AUC 94.9%)在效率与性能上的表现。
  • 在分布偏移设置(CIFAR-100-C)下,Packed-Ensembles在严重程度为5时保持最高准确率(85.2%)和最低ECE(0.021),优于DE与ResNeXt-50。
  • 在回归任务中,Packed-Ensembles在所有UCI数据集上的RMSE与NLL值几乎与Deep Ensembles完全一致,RMSE差异在0.05以内,NLL差异也在0.05以内。
  • Packed-Ensembles的预测方差显著降低(0.19%),远低于单个DNN(0.68%)和Deep Ensembles(0.43%),表明其具有更高的稳定性。
  • 实证结果证实,随机权重初始化与随机优化已足够生成多样化的子网络,即使在共享批量数据下也成立,验证了该方法设计的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。