Skip to main content
QUICK REVIEW

[论文解读] Variational Inference based on Robust Divergences

Futoshi Futami, Issei Sato|arXiv (Cornell University)|Oct 18, 2017
Domain Adaptation and Few-Shot Learning参考文献 17被引用 26
一句话总结

本文提出了一种鲁棒变分推断方法,通过使用 β- 和 γ-散度等鲁棒散度替代标准的 Kullback-Leibler 散度,以提升贝叶斯神经网络在异常值存在下的鲁棒性。通过利用 Zellner 的优化框架,该方法确保了输入和输出的影响力函数有界,从而在数据污染情况下也能实现深度网络中的稳定推断。实验结果表明,在存在噪声数据的回归与分类任务中,该方法相较于标准变分推断表现出更优的性能。

ABSTRACT

Robustness to outliers is a central issue in real-world machine learning applications. While replacing a model to a heavy-tailed one (e.g., from Gaussian to Student-t) is a standard approach for robustification, it can only be applied to simple models. In this paper, based on Zellner's optimization and variational formulation of Bayesian inference, we propose an outlier-robust pseudo-Bayesian variational method by replacing the Kullback-Leibler divergence used for data fitting to a robust divergence such as the beta- and gamma-divergences. An advantage of our approach is that superior but complex models such as deep networks can also be handled. We theoretically prove that, for deep networks with ReLU activation functions, the \emph{influence function} in our proposed method is bounded, while it is unbounded in the ordinary variational inference. This implies that our proposed method is robust to both of input and output outliers, while the ordinary variational method is not. We experimentally demonstrate that our robust variational method outperforms ordinary variational inference in regression and classification with deep networks.

研究动机与目标

  • 解决标准变分推断在面对现实世界数据中输入和输出异常值时缺乏鲁棒性的问题。
  • 通过变分推断将鲁棒贝叶斯推断从简单模型扩展至复杂的深度神经网络。
  • 从理论上和实证上证明,鲁棒散度可导致有界的影响力函数,从而在数据污染下确保模型稳定性。
  • 提供一种可扩展的伪贝叶斯框架,用于深度学习,即使在数据噪声或损坏的情况下也能保持性能。

提出的方法

  • 在变分推断中用 β-散度和 γ-散度等鲁棒散度替代标准的 Kullback-Leibler 散度,以降低对异常值的敏感性。
  • 采用 Zellner 的优化方法和贝叶斯推断的变分公式,推导出一种鲁棒的伪贝叶斯推断过程。
  • 利用重参数化技巧和随机优化(Adam)训练具有变分后验近似的深度神经网络。
  • 通过模型密度的幂次引入加权似然方法,以降低低概率(异常值)数据点的影响。
  • 采用影响力函数分析,从理论上和实证上验证在异常值污染下模型扰动的有界性。
  • 通过在基准数据集上进行交叉验证,对超参数(β, γ, α)进行调优,以优化鲁棒性和预测性能。

实验结果

研究问题

  • RQ1β- 和 γ-散度等鲁棒散度能否有效用于提升深度神经网络中变分推断的鲁棒性?
  • RQ2所提出的方法是否对输入和输出异常值均表现出有界的影响力函数,而标准变分推断则不具备此特性?
  • RQ3在数据污染条件下,所提出的鲁棒变分推断的预测性能与标准变分推断相比如何?
  • RQ4当训练数据中包含虚假异常值时,该方法能否在回归和分类任务中保持高预测准确性?

主要发现

  • 所提出方法在使用 ReLU 激活函数的深度网络中,其影响力函数有界,而标准变分推断的影响力函数则无界,表明其对输入和输出异常值具有内在鲁棒性。
  • 实证结果表明,在人工引入输入和输出异常值的回归与分类任务中,所提出方法在测试对数似然性能上优于标准变分推断。
  • 与标准 VI 相比,该方法在标签错误指定条件下的测试对数似然平均下降幅度更低,表明在数据错误下具有更稳定的预测能力。
  • 影响力函数分析证实,异常值对模型参数和预测分布的影响是有限的,不会无界增长。
  • 该方法在多个数据集上(包括回归与分类基准)均保持了鲁棒性能,且超参数通过交叉验证选定。
  • 使用鲁棒散度可获得更稳定可靠的后验近似,尤其在训练数据包含虚假或损坏样本时表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。