QUICK REVIEW

[论文解读] Packed-Ensembles for Efficient Uncertainty Estimation

Olivier Laurent, Adrien Lafage|arXiv (Cornell University)|Oct 17, 2022

Anomaly Detection Techniques and Applications被引用 10

一句话总结

本文提出Packed-Ensembles（PE），一种计算效率高的深度学习架构，通过使用分组卷积将多个独立的子网络打包到单一共享主干网络中，实现与Deep Ensembles（DE）相当的高性能不确定性估计，同时显著减少参数量和推理时间。PE在参数量和硬件开销极低的情况下，实现了最先进的准确率、校准性能、分布外检测能力以及对分布偏移的鲁棒性。

ABSTRACT

Deep Ensembles (DE) are a prominent approach for achieving excellent performance on key metrics such as accuracy, calibration, uncertainty estimation, and out-of-distribution detection. However, hardware limitations of real-world systems constrain to smaller ensembles and lower-capacity networks, significantly deteriorating their performance and properties. We introduce Packed-Ensembles (PE), a strategy to design and train lightweight structured ensembles by carefully modulating the dimension of their encoding space. We leverage grouped convolutions to parallelize the ensemble into a single shared backbone and forward pass to improve training and inference speeds. PE is designed to operate within the memory limits of a standard neural network. Our extensive research indicates that PE accurately preserves the properties of DE, such as diversity, and performs equally well in terms of accuracy, calibration, out-of-distribution detection, and robustness to distribution shift. We make our code available at https://github.com/ENSTA-U2IS/torch-uncertainty.

研究动机与目标

为解决深度集成（DE）在硬件资源受限的真实安全关键系统中计算成本过高的问题。
在大幅减少模型大小和推理时间的同时，保留DE的预测不确定性与多样性特性。
设计一种结构化、轻量化的集成架构，使其在标准神经网络的内存与计算约束下运行。
证明Packed-Ensembles在准确率、校准性能、分布外检测以及对分布偏移的鲁棒性方面，可达到或超越DE的性能。

提出的方法

Packed-Ensembles利用分组卷积将单个主干网络划分为多个独立的子网络，每个子网络具有非共享权重。
各子网络使用共享的批量数据进行端到端训练，支持并行推理并减少参数量。
该方法采用混合精度训练，进一步加速训练与推理过程，且不损失性能。
子网络作为整体进行选择，依据集成验证准确率，确保整体性能最优。
该架构通过分组卷积形式化为一种结构化稀疏模式，包含超参数α（宽度缩放）、M（子网络数量）和γ（组数）。
该方法可实现一次前向传播同时计算所有子网络的预测结果，以极低的成本模拟完整集成的效果。

实验结果

研究问题

RQ1单一神经网络架构是否能在显著减少参数量和推理时间的前提下，实现与Deep Ensembles相当的不确定性估计性能？
RQ2通过分组卷积构建独立子网络的方法，是否能保留Deep Ensembles的多样性与预测不确定性特性？
RQ3与DE及其他高效基线模型相比，Packed-Ensembles在分布偏移和分布外检测任务中的表现如何？
RQ4即使参数量远少于完整DE，Packed-Ensembles是否仍能在多个随机种子下保持高稳定性和低方差？

主要发现

在CIFAR-100上，Packed-Ensembles实现了最先进的不确定性量化性能，准确率达到90.0%，校准性能（ECE为0.0087）与Deep Ensembles相当，但仅使用2360万参数。
在ImageNet-1k上，PE-(3,4,1)架构仅使用5910万参数和92.9亿次乘加操作，显著优于ResNeXt-50（准确率90.4%）和MIMO（AUC 94.9%）在效率与性能上的表现。
在分布偏移设置（CIFAR-100-C）下，Packed-Ensembles在严重程度为5时保持最高准确率（85.2%）和最低ECE（0.021），优于DE与ResNeXt-50。
在回归任务中，Packed-Ensembles在所有UCI数据集上的RMSE与NLL值几乎与Deep Ensembles完全一致，RMSE差异在0.05以内，NLL差异也在0.05以内。
Packed-Ensembles的预测方差显著降低（0.19%），远低于单个DNN（0.68%）和Deep Ensembles（0.43%），表明其具有更高的稳定性。
实证结果证实，随机权重初始化与随机优化已足够生成多样化的子网络，即使在共享批量数据下也成立，验证了该方法设计的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。