[论文解读] Uncertainty Estimation by Fisher Information-based Evidential Deep Learning
本文提出基于 Fisher Information 的 Evidential Deep Learning(I-EDL),利用 Fisher Information Matrix 重新给证据学习损失加权,并通过 PAC-Bayesian 界提升泛化能力,以改进不确定性估计和 OOD 检测,特别是在少样本设置中。
Uncertainty estimation is a key factor that makes deep learning reliable in practical applications. Recently proposed evidential neural networks explicitly account for different uncertainties by treating the network's outputs as evidence to parameterize the Dirichlet distribution, and achieve impressive performance in uncertainty estimation. However, for high data uncertainty samples but annotated with the one-hot label, the evidence-learning process for those mislabeled classes is over-penalized and remains hindered. To address this problem, we propose a novel method, Fisher Information-based Evidential Deep Learning ($\mathcal{I}$-EDL). In particular, we introduce Fisher Information Matrix (FIM) to measure the informativeness of evidence carried by each sample, according to which we can dynamically reweight the objective loss terms to make the network more focused on the representation learning of uncertain classes. The generalization ability of our network is further improved by optimizing the PAC-Bayesian bound. As demonstrated empirically, our proposed method consistently outperforms traditional EDL-related algorithms in multiple uncertainty estimation tasks, especially in the more challenging few-shot classification settings.
研究动机与目标
- 在数据、模型与分布不确定性方面推动对深度学习中可靠的不确定性估计的研究。
- 解决经典 evidential 网络中对高不确定性样本的证据学习错误问题(使用 one-hot 标签)。
- 引入基于 Fisher Information 的机制,按样本与类别自适应地加权损失项。
- 结合 PAC-Bayesian 界来提升泛化并提供理论依据。
提出的方法
- 将目标建模为来自 Dirichlet 分布,浓度参数 alpha = f_theta(x) + 1。
- 使用 Dir(alpha) 的 Fisher Information Matrix 来衡量类别级信息量,并将 y 生成方差设为 I(alpha)^{-1}。
- 推导一个将 I-MSE 与信息量惩罚、KL 项,以及通过 PAC-Bayesian 界描述的 FIM 行列式项相结合的目标函数。
- 在训练过程中允许对证据在每个样本、每个类别上进行重加权,以将学习聚焦在不确定的类别上。
- 优化损失 L = L_I-MSE - lambda1 L_|I| + lambda2 L_KL,且每个分量的定义基于 alpha 以及 digamma/trigamma 函数。
实验结果
研究问题
- RQ1Fisher Information 是否能够量化证据在各类别上的信息量并对学习进行重加权,以提升对不确定类别的表征?
- RQ2将 FIM 与 PAC-Bayesian 界引入是否能提升不确定性校准、OOD 检测以及少样本分类性能?
- RQ3I-EDL 相较于标准 EDL 及其他基于 Dirichlet 的不确定性模型在数据集与任务上的表现如何?
- RQ4PAC-Bayesian 界在 evidential 网络的泛化中扮演怎样的角色?
主要发现
- I-EDL 在多个任务上的 Dirichlet 基不确定性模型中达到最先进水平,包括 OOD 检测和置信度评估。
- 在少样本 mini-ImageNet 设置中,方法在准确率和不确定性指标上表现出改进。
- 基于 FIM 的重加权使模型将学习聚焦在不确定类别上,提升对标签噪声和数据不确定性的鲁棒性。
- 实证结果显示 I-EDL 在多个基线(如 EDL、PN 变体、MC Dropout)上优于对比项。
- PAC-Bayesian 组件提供了一个理论上的泛化保证框架,辅以经验增益。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。