Skip to main content
QUICK REVIEW

[论文解读] MINE: Mutual Information Neural Estimation

Mohamed Ishmael Belghazi, Aristide Baratin|arXiv (Cornell University)|Jan 12, 2018
Adversarial Robustness in Machine Learning被引用 305
一句话总结

引入一种基于神经网络的互信息估计器(MINE),使用双 KL 发散表示,可扩展至高维并可通过反向传播训练,应用于 GAN、ALI 和信息瓶颈。

ABSTRACT

We argue that the estimation of mutual information between high dimensional continuous random variables can be achieved by gradient descent over neural networks. We present a Mutual Information Neural Estimator (MINE) that is linearly scalable in dimensionality as well as in sample size, trainable through back-prop, and strongly consistent. We present a handful of applications on which MINE can be used to minimize or maximize mutual information. We apply MINE to improve adversarially trained generative models. We also use MINE to implement Information Bottleneck, applying it to supervised classification; our results demonstrate substantial improvement in flexibility and performance in these settings.

研究动机与目标

  • 动机并应对高维连续变量互信息估计的挑战。
  • 提出一个基于 Donsker-Varadhan 和 f-散度对偶表示的神经网络估计器(MINE)。
  • 证明 MINE 的强一致性及有利的样本复杂度。
  • 将 MINE 应用于缓解 GAN 中的模式塌缩、提升 ALI 的重建,以及实现连续信息瓶颈方法。

提出的方法

  • 定义一个在 X 与 Z 上的神经网络 T_theta,作为 KL 发散的对偶函数。
  • 使用界 I(X;Z) ≥ E_{P_XZ}[T_theta] − log E_{P_X ⊗ P_Z}[e^{T_theta}]。
  • 通过对 theta 进行优化,并使用来自 P_{XZ} 和 P_X ⊗ P_Z 的小批量样本来估计 I(X;Z)。
  • 通过使用移动平均偏差校正来应对分母中的 SGD 梯度偏差。
  • 提出 MINE(以及 MINE-f)作为估计器;讨论偏差校正与实际训练细节。
  • 给出理论结果:强一致性(近似与估计引理)以及样本复杂度界。

实验结果

研究问题

  • RQ1基于神经网络的双重表示是否能够在高维变量之间准确估计互信息?
  • RQ2MINE 是否具备强一致性,其样本复杂度是多少?
  • RQ3在实际学习场景下(GAN、ALI、IB),MINE 是否能够有效地用于最大化或最小化互信息?

主要发现

模型重建误差重建精度(%)MS-SSIM
MNIST ALI14.2445.950.97
MNIST ALICE(l2)3.2099.030.97
MNIST ALICE(Adv.)5.2098.170.98
MNIST MINE9.7396.100.99
CelebA ALI53.7557.490.81
CelebA ALICE(l2)8.0132.220.93
CelebA ALICE(Adv.)92.5648.950.51
CelebA MINE36.1176.080.99
  • MINE 具强一致性:在充分的网络容量和样本条件下,可以任意接近 I(X;Z)。
  • 经验结果显示,在低维时 MINE 与真实 MI 接近,在高维时比非参数的 k-NN 表现更优。
  • 用 MINE 最大化互信息可以改善 GAN 的模态覆盖与 ALI 重建,并有助于减少模式塌缩。
  • MINE 使得连续信息瓶颈实现超越多种情境下的变分瓶颈基线。
  • 在 Stacked MNIST 上,MINE 实现了全模态覆盖,与数据分布的 KL 散度具有竞争力。
  • 基于 MINE 的 IB 实验在置换不变的 MNIST 上显示出相较基线更有利的错分率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。