Skip to main content
QUICK REVIEW

[论文解读] Modeling Uncertainty by Learning a Hierarchy of Deep Neural Connections

Raanan Y. Rohekar, Yaniv Gurwicz|arXiv (Cornell University)|Jan 1, 2019
Adversarial Robustness in Machine Learning被引用 8
一句话总结

本文提出了一种分层深度神经网络架构,通过在生成网络与判别网络之间共享连接模式来建模不确定性,从而实现高效的后验采样以估计不确定性。该方法在校准性和分布外检测方面优于当前最先进的基线方法。

ABSTRACT

Modeling uncertainty in deep neural networks, despite recent important advances, is still an open problem. Bayesian neural networks are a powerful solution, where the prior over network weights is a design choice, often a normal distribution or other distribution encouraging sparsity. However, this prior is agnostic to the generative process of the input data, which might lead to unwarranted generalization for out-of-distribution tested data. We suggest the presence of a confounder for the relation between the input data and the discriminative function given the target label. We propose an approach for modeling this confounder by sharing neural connectivity patterns between the generative and discriminative networks. This approach leads to a new deep architecture, where networks are sampled from the posterior of local causal structures, and coupled into a compact hierarchy. We demonstrate that sampling networks from this hierarchy, proportionally to their posterior, is efficient and enables estimating various types of uncertainties. Empirical evaluations of our method demonstrate significant improvement compared to state-of-the-art calibration and out-of-distribution detection methods.

研究动机与目标

  • 为解决贝叶斯神经网络在分布外数据上泛化能力差的问题,其先验忽略了输入数据的生成过程。
  • 在给定目标标签的情况下,识别并建模影响输入数据与判别函数之间关系的混杂因子。
  • 开发一种深度架构,通过从局部因果结构的后验分布中采样,以更好地表示不确定性。
  • 通过后验采样实现对多种不确定性类型的高效估计,采样对象为紧凑的分层网络。
  • 与现有方法相比,提升模型校准性和分布外检测性能。

提出的方法

  • 该方法引入一种分层架构,其中生成网络与判别网络共享神经连接模式,以在输入-标签关系中建模混杂因子。
  • 其形式化了对局部因果结构的后验分布,使网络采样能够反映模型结构中的不确定性。
  • 该架构将采样得到的网络耦合为紧凑的分层结构,通过按后验概率成比例的加权采样实现高效推理。
  • 该方法利用结构共享,使先验的归纳偏置与数据的生成过程对齐,从而提升鲁棒性。
  • 通过聚合多个采样网络的预测结果实现不确定性估计,每个网络代表一种可能的因果结构配置。
  • 该方法无需显式后验近似,而是依赖于从学习到的连接层次结构中进行结构化采样。

实验结果

研究问题

  • RQ1如何通过引入对数据生成过程的知识,改进深度神经网络中的不确定性估计?
  • RQ2混杂因子在输入数据与判别函数之间的关系中起什么作用,如何能有效建模?
  • RQ3生成网络与判别网络之间共享的连接模式是否能带来更好的不确定性量化与鲁棒性?
  • RQ4与标准贝叶斯神经网络推理相比,从分层网络结构中进行后验采样在模型校准与分布外检测方面表现如何?
  • RQ5紧凑的、结构化的网络层次能否在不带来高计算成本的前提下,高效表示不确定性?

主要发现

  • 所提方法在模型校准方面相比当前最先进的贝叶斯神经网络方法取得了显著改进。
  • 在分布外检测方面表现出更优性能,显著降低了对分布外样本的误报率。
  • 从分层网络结构中进行后验采样,能够有效估计多种不确定性类型,包括认知不确定性与数据分布不确定性。
  • 共享连接机制通过使先验与数据潜在生成过程对齐,提升了在分布外数据上的泛化能力。
  • 该方法计算效率高,通过结构化采样实现实用的不确定性估计,无需复杂的后验近似。
  • 实证评估证实,该分层架构在不确定性量化与鲁棒性方面均优于现有方法。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。