QUICK REVIEW

[论文解读] On Variational Bounds of Mutual Information

Ben Poole, Sherjil Ozair|arXiv (Cornell University)|May 16, 2019

Face and Expression Recognition被引用 153

一句话总结

本文统一并扩展了互信息（MI）的变分界限，提出一个折中偏差与方差的下界连续体，并展示它们在高维估计和表征学习中的效用。

ABSTRACT

Estimating and optimizing Mutual Information (MI) is core to many problems in machine learning; however, bounding MI in high dimensions is challenging. To establish tractable and scalable objectives, recent work has turned to variational bounds parameterized by neural networks, but the relationships and tradeoffs between these bounds remains unclear. In this work, we unify these recent developments in a single framework. We find that the existing variational lower bounds degrade when the MI is large, exhibiting either high bias or high variance. To address this problem, we introduce a continuum of lower bounds that encompasses previous bounds and flexibly trades off bias and variance. On high-dimensional, controlled problems, we empirically characterize the bias and variance of the bounds and their gradients and demonstrate the effectiveness of our new bounds for estimation and representation learning.

研究动机与目标

在一个统一框架内回顾并关联现有的 MI 估计器。
引入一个折中偏差与方差的下界连续体用于 MI 估计。
利用条件结构推导可解的界限，在表示学习情境中对 MI 进行夹层界限。
在高维问题上经验性地表征估计量及梯度的偏差/方差。
在 dSprites 的解码器无关的解耦表示学习中演示这些界限。

提出的方法

在一个未归一化的变分框架内回顾并统一 Barber & Agakov、Donsker–Varadhan、Nguyen–Wainwright–Jordan、MINE 边界。
通过用 a(y) 上界对对数分区进行上界，引入可处理的 TUBA（Tractable Unnormalized Barber–Agakov）下界，以获得 MI 的可处理下界。
推导多重采样下界，将 NCE 下界作为特例并将 NWJ 与多重采样估计量联系起来。
提出非线性插值下界 I_alpha，将 m(y; x_{1:K}) 与 q(y) 融合，以在偏差与方差之间权衡（alpha ∈ [0,1]）。
在 p(y|x) 可处理时给出结构化下界，包括带已知条件的 InfoNCE 下界和留一法上的上界。
展示如何将密度比估计器转化为 MI 下界，并讨论基于 JS 的评估者以提高稳定性。

实验结果

研究问题

RQ1现有的变分 MI 边界如何在一个统一框架内相关，以及它们的权衡是什么？
RQ2我们能否构造一个在低偏差/高方差与高偏差/低方差估计量之间插值的 MI 下界连续体？
RQ3如何利用已知的条件结构 p(y|x) 来收紧表示学习中的 MI 下界？
RQ4在高维设置中 MI 估计量及其梯度的偏差和方差性质是什么？
RQ5MI 下界能否在解码器无关的解耦表示学习中得到有效应用？

主要发现

一组下界连续体（I_TUBA、I_NWJ、I_NCE、I_JS）允许在 MI 估计中权衡偏差和方差。
插值下界 I_alpha 桥接 NWJ 和 NCE，通过 alpha(0 到 1) 实现可调的偏差-方差。
多重采样下界将 NCE 估计量作为特例重现，并通过额外样本降低方差。
最优评判者可能取决于所选下界；联合式与分离式评判者在实验中表现出不同的方差特征。
当 p(y|x) 可处理时，上下界可以夹在 MI 两侧，从而在表示学习中实现可实践的界限。
在 dSprites 上的无解码器 InfoMax_STYLE 学习展示了这些界限在解耦表示中的实际效用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。