[论文解读] Hyperparameter Ensembles for Robustness and Uncertainty Quantification
本文介绍 hyperparameter ensembles(包括 hyper-deep ensembles 和 hyper-batch ensembles),通过结合 weight diversity 与 hyperparameter diversity 提高鲁棒性和不确定性估计,并给出在高效实现方面优于 deep ensembles 与 batch ensembles 的结果。
Ensembles over neural network weights trained from different random initialization, known as deep ensembles, achieve state-of-the-art accuracy and calibration. The recently introduced batch ensembles provide a drop-in replacement that is more parameter efficient. In this paper, we design ensembles not only over weights, but over hyperparameters to improve the state of the art in both settings. For best performance independent of budget, we propose hyper-deep ensembles, a simple procedure that involves a random search over different hyperparameters, themselves stratified across multiple random initializations. Its strong performance highlights the benefit of combining models with both weight and hyperparameter diversity. We further propose a parameter efficient version, hyper-batch ensembles, which builds on the layer structure of batch ensembles and self-tuning networks. The computational and memory costs of our method are notably lower than typical ensembles. On image classification tasks, with MLP, LeNet, ResNet 20 and Wide ResNet 28-10 architectures, we improve upon both deep and batch ensembles.
研究动机与目标
- 研究将权重多样性(随机初始化)与超参数多样性结合,以提高鲁棒性和不确定性量化的益处。
- 提出两种集合范式:hyper-deep ensembles(budget-independent performance)和 hyper-batch ensembles(parameter-efficient performance)。
- 提出将超参数搜索与集成构建相结合的实用算法,并评估它们在图像分类任务上的经验收益。
提出的方法
- 通过对一个超参数驱动的模型序列进行分层,然后以随机初始化进行层叠,来创建两轴多样性(超参数和初始化),从而引入 hyper-deep ensembles。
- 通过将层结构与自调整网络相结合,扩展 batch ensembles,以在单次训练过程中实现权重和超参数的多样性。
- 使用贪心集合构造(hyper_ens)从随机搜索结果中选择模型,并以放回抽样形成带权重的集合。
- 用一个超参数条件层对每个集合成员建模,其中权重通过秩-1分解和超参数嵌入进行调制(如同自调整网络)。
- 通过在超参数分布上优化一个期望目标来训练集合,使用交替训练与调优步骤以及一个熵项以防止崩溃(方程 (4)-(6))。
- 对于 hyper-batch ensembles,将每个成员的权重参数化为 W_k(lambda_k) 和 b_k(lambda_k),共享 W、Delta、r_k、s_k、e(lambda_k) 等,偏置同样,这促进了高效的并行小批量训练(方程 (7)-(9))。
实验结果
研究问题
- RQ1将权重多样性(随机初始化)与超参数多样性结合,能否超越传统的深度集成?
- RQ2在不同架构和数据集上,hyper-deep ensembles 与 hyper-batch ensembles 是否提供鲁棒性和不确定性量化的优势?
- RQ3提出的超参数感知层在保持 batch ensembles 的内存和计算优势的同时,是否可以高效训练?
- RQ4带有熵正则化的超参数分布如何影响集合性能和校准(calibration)?
- RQ5在标准图像分类基准测试上,所提出的两种方案的经验收益为何?
主要发现
- Hyper-deep ensembles 通过同时利用 hyperparameter 和初始化多样性,始终超越标准的 deep ensembles。
- Hyper-batch ensembles 超越 batch ensembles 和 self-tuning networks,提供一种参数高效且可扩展的实现多样性的方法。
- 在 Fashion-MNIST、CIFAR-100、CIFAR-10/100 于 MLP、LeNet、ResNet-20、Wide ResNet-28-10 上,两种方法均提升预测性能和不确定性指标。
- 该方法在实现超参数多样性的同时,保持了与之前高效集合方法相当的高效小批量训练和内存占用。
- 经验证的结果表明,对超参数与初始化进行分层可以产生更具多样性的预测并在校准(ECE)方面优于基线。
- 该方法设计为可直接替换的方案,并附有用于实现和复现的公开代码。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。