QUICK REVIEW

[论文解读] Deep Variational Information Bottleneck

Alexander A. Alemi, Ian Fischer|arXiv (Cornell University)|Dec 1, 2016

Adversarial Robustness in Machine Learning参考文献 38被引用 367

一句话总结

本文为神经网络引入了信息瓶颈的变分近似，允许进行深度VIB训练，从而提升泛化能力和对对抗攻击的鲁棒性。

ABSTRACT

We present a variational approximation to the information bottleneck of Tishby et al. (1999). This variational approach allows us to parameterize the information bottleneck model using a neural network and leverage the reparameterization trick for efficient training. We call this method "Deep Variational Information Bottleneck", or Deep VIB. We show that models trained with the VIB objective outperform those that are trained with other forms of regularization, in terms of generalization performance and robustness to adversarial attack.

研究动机与目标

在深度网络中引入信息瓶颈目标的变分界限。
用神经网络参数化IB目标并通过重参数化技巧进行优化。
证明VIB能提升对抗扰动下的泛化能力和鲁棒性。

提出的方法

将信息瓶颈目标表述为 I(Z,Y) - β I(Z,X).
将 Z 表示为随机编码 p(z|x) 并使用变分解码器 q(y|z)。
推导一个可通过 SGD 优化的可优化下界 L。
应用重参数化技巧对 z 进行采样并通过随机节点进行反向传播。
使用变分先验 r(z) 来界定 I(Z,X) 并在目标中获得一个 KL 项。
在 MNIST 和 ImageNet 上使用神经网络编码器/解码器进行实验，以与确定性基线进行比较。

实验结果

研究问题

RQ1变分推断能否为深度网络的信息瓶颈提供可扩展的优化？
RQ2使用 VIB 目标进行训练是否比常规正则化基线提高泛化能力？
RQ3VIB框架在对抗扰动方面是否比标准训练更鲁棒？
RQ4β 的压缩水平如何影响瓶颈中的信息量与预测性能？

主要发现

VIB 在置换不变的 MNIST 上实现了更低的测试误差（1.13%），相比若干正则化基线。
当 β 处于中间范围时，对 z 的蒙特卡洛取样平均提高鲁棒性且不牺牲准确性。
VIB 模型在 MNIST 上对对抗攻击的鲁棒性提升，针对 FGSM 与 L2 优化攻击。
增大 β 会降低 I(Z,X) 同时在训练数据上保持预测能力，体现了信息瓶颈的权衡。
在 ImageNet 上，VIB 展示了在确定性基线中不存在的对抗抵抗性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。