[论文解读] DICE: Diversity in Deep Ensembles via Conditional Redundancy Adversarial Estimation
DICE 引入了一种新颖的训练框架,通过在保持预测准确性的同时最小化特征表示之间的条件冗余,增强了深度集成模型的多样性。通过对抗性地减少不同成员特征之间的虚假相关性(以目标类别为条件),DICE 在 CIFAR-100 上实现了最先进性能,仅用 5 个 DICE 训练的网络即达到与 7 个网络独立训练的集成模型相当的准确率。
Deep ensembles perform better than a single network thanks to the diversity among their members. Recent approaches regularize predictions to increase diversity; however, they also drastically decrease individual members' performances. In this paper, we argue that learning strategies for deep ensembles need to tackle the trade-off between ensemble diversity and individual accuracies. Motivated by arguments from information theory and leveraging recent advances in neural estimation of conditional mutual information, we introduce a novel training criterion called DICE: it increases diversity by reducing spurious correlations among features. The main idea is that features extracted from pairs of members should only share information useful for target class prediction without being conditionally redundant. Therefore, besides the classification loss with information bottleneck, we adversarially prevent features from being conditionally predictable from each other. We manage to reduce simultaneous errors while protecting class information. We obtain state-of-the-art accuracy results on CIFAR-10/100: for example, an ensemble of 5 networks trained with DICE matches an ensemble of 7 networks trained independently. We further analyze the consequences on calibration, uncertainty estimation, out-of-distribution detection and online co-distillation.
研究动机与目标
- 解决深度学习中集成多样性与单个模型准确率之间的权衡问题。
- 克服现有正则化方法在提升多样性的同时降低单个模型性能的局限性。
- 开发一种在不损害预测能力的前提下促进特征表示多样性的训练策略。
- 利用信息论与神经网络估计条件互信息的方法指导模型训练。
- 通过受控的特征多样性提升泛化能力、不确定性估计以及分布外检测性能。
提出的方法
- 提出一种基于最小化集成成员之间特征条件冗余的新训练目标 DICE。
- 使用神经网络估计条件互信息(通过 Donsker-Varadhan 表示法)来度量并减少冗余信息。
- 应用对抗性训练,使不同集成成员的特征在给定目标类别时条件独立。
- 将标准分类损失与条件冗余最小化损失相结合,以平衡准确率与多样性。
- 将互信息估计条件化于目标标签,以保留与任务相关的信息,同时消除虚假相关性。
- 采用 VCEB(变分条件熵瓶颈)框架实现该方法,通过共享特征提取机制提升效率。
实验结果
研究问题
- RQ1我们能否通过显式减少成员特征之间的条件冗余来提升深度集成性能?
- RQ2最小化特征之间虚假相关性是否能在不降低单个模型准确率的前提下增强泛化能力?
- RQ3在准确率、校准性和不确定性估计方面,DICE 与现有集成方法相比表现如何?
- RQ4与标准独立训练相比,DICE 是否能以更少的集成成员实现相当的性能?
- RQ5条件冗余减少对分布外检测和在线协同蒸馏有何影响?
主要发现
- DICE 在 CIFAR-100 上实现了最先进准确率,5 个网络的集成性能与 7 个独立训练网络的集成相当。
- 在使用 ResNet-32 的 CIFAR-100 上,DICE 以 5 个分支达到 77.51% 的 top-1 准确率,优于独立训练及先前方法如 CEB 和 IBR。
- 该方法提升了校准性与不确定性估计性能,在仅使用 3 个网络的情况下,CIFAR-10 上的 top-1 准确率达到 95.01%。
- 通过消融实验验证,DICE 通过消除特征间虚假相关性,减少了同时错误,从而提升性能。
- 即使在低水平权重共享设置下,模型仍保持高性能,4 个 DICE 训练的分支在准确率上等同于 7 个传统分支。
- 消融实验表明,若移除 RHS(冗余最小化)组件,多样性与准确率略有提升,表明其在损失函数中的关键作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。