[论文解读] Deep Ensembles: A Loss Landscape Perspective
本文表明:随机初始化会探索不同的函数空间模态,而在单一轨迹中的子空间采样则产生相似的函数;随机集成在多样性–准确性权衡上优于子空间方法。
Deep ensembles have been empirically shown to be a promising approach for improving accuracy, uncertainty and out-of-distribution robustness of deep learning models. While deep ensembles were theoretically motivated by the bootstrap, non-bootstrap ensembles trained with just random initialization also perform well in practice, which suggests that there could be other explanations for why deep ensembles work well. Bayesian neural networks, which learn distributions over the parameters of the network, are theoretically well-motivated by Bayesian principles, but do not perform as well as deep ensembles in practice, particularly under dataset shift. One possible explanation for this gap between theory and practice is that popular scalable variational Bayesian methods tend to focus on a single mode, whereas deep ensembles tend to explore diverse modes in function space. We investigate this hypothesis by building on recent work on understanding the loss landscape of neural networks and adding our own exploration to measure the similarity of functions in the space of predictions. Our results show that random initializations explore entirely different modes, while functions along an optimization trajectory or sampled from the subspace thereof cluster within a single mode predictions-wise, while often deviating significantly in the weight space. Developing the concept of the diversity--accuracy plane, we show that the decorrelation power of random initializations is unmatched by popular subspace sampling methods. Finally, we evaluate the relative effects of ensembling, subspace based methods and ensembles of subspace based methods, and the experimental results validate our hypothesis.
研究动机与目标
- 研究随机初始化形成的深度集成在准确性和不确定性方面为何表现良好。
- 分析损失景观以理解不同训练轨迹中的函数多样性。
- 在多样性和准确性方面比较随机初始化集成与基于子空间的贝叶斯近似。
- 考察数据集漂移鲁棒性以及方法之间的多样性–准确性权衡。
提出的方法
- 从不同随机初始化训练多个神经网络以形成集成。
- 分析检查点和轨迹之间在权重空间和函数空间的相似性。
- 围绕每条轨迹构建并比较子空间(随机子空间、dropout、对角高斯、低秩高斯)。“
- 使用 t-SNE 将预测向量可视化以展示函数空间的多样性。
- 在 CIFAR-10/100 和 ImageNet 上评估多样性–准确性权衡和集成性能,包括腐蚀和 OOD 数据。
- 在数据集漂移下使用 CIFAR-10-C 和 ImageNet-C 评估集成与子空间方法。
实验结果
研究问题
- RQ1随机初始化在权重空间轨迹相近的情况下,是否仍会采样到不同的函数空间模态?
- RQ2子空间采样方法在多样性和准确性方面与独立集成相比如何?
- RQ3子空间方法是否能为集成提供互补的优势,特别是在数据集漂移下?
- RQ4函数空间的多样性与对腐蚀或 OOD 输入的鲁棒性之间有什么关系?
主要发现
- 单一轨迹上的检查点在权重空间和函数空间上都相似。
- 来自不同随机初始化的函数在函数空间中具有多样性,但在权重空间中却不多样。
- 子空间采样方法在函数空间中的函数接近其原始轨迹的起点,未达到独立最优解的多样性。
- 独立训练的集成在多样性–准确性权衡上优于子空间方法,且集成规模的增加会带来更大的增益。
- 集成与子空间方法是互补的,尤其在数据集漂移(CIFAR-10-C、ImageNet-C)下可提供更好的性能和不确定性估计。
- 预测之间的 Jensen-Shannon 散度在独立随机初始化时最高,在轨迹内子空间下(尤其在腐蚀条件下)要低得多。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。