[论文解读] On the relationship between variational inference and adaptive importance sampling.
本文提出了AISLE,一种统一的多样本变分推断框架,其包含了IWAE和RWS作为特例。通过应用Tucker等人(2019)的方差缩减技术,该工作为sticking-the-landing梯度提供了理论依据,表明先前工作中该梯度失效的原因并非由于缺乏联合目标函数,并将自适应重要性采样定位为比IWAE风格目标函数更合理、更基础的序列蒙特卡洛扩展方法。
The importance weighted autoencoder (IWAE) (Burda et al., 2016) and reweighted wake-sleep (RWS) algorithm (Bornschein and Bengio, 2015) are popular approaches which employ multiple samples to achieve bias reductions compared to standard variational methods. However, their relationship has hitherto been unclear. We introduce a simple, unified framework for multi-sample variational inference termed adaptive importance sampling for learning (AISLE) and show that it admits IWAE and RWS as special cases. Through a principled application of a variance-reduction technique from Tucker et al. (2019), we also show that the sticking-the-landing (STL) gradient from Roeder et al. (2017), which previously lacked theoretical justification, can be recovered as a special case of RWS (and hence of AISLE). In particular, this indicates that the breakdown of RWS -- but not of STL -- observed in Tucker et al. (2019) may not be attributable to the lack of a joint objective for the generative-model and inference-network parameters as previously conjectured. Finally, we argue that our adaptive-importance-sampling interpretation of variational inference leads to more natural and principled extensions to sequential Monte Carlo methods than the IWAE-type multi-sample objective interpretation.
研究动机与目标
- 澄清变分推断、IWAE与RWS之间的理论关系,尽管它们都使用了多组样本,但这一关系此前仍不明确。
- 构建一个统一框架——AISLE,将IWAE与RWS统一在自适应重要性采样解释之下。
- 为sticking-the-landing(STL)梯度提供理论基础,该梯度虽在实践中表现良好,但此前缺乏理论支持。
- 探究Tucker等人(2019)中RWS的失效是否源于生成模型与推断网络之间缺乏联合目标函数。
- 主张将自适应重要性采样作为扩展变分推断至序列蒙特卡洛方法的更自然、更合理的理论基础。
提出的方法
- 提出AISLE,一种基于自适应重要性采样的多样本变分推断通用框架,其中提议分布通过自适应学习以最小化变分下界方差。
- 通过选择特定的提议分布与权重更新策略,证明IWAE与RWS是AISLE的特例。
- 将Tucker等人(2019)的方差缩减技术应用于AISLE框架,使STL梯度可作为RWS的特例被推导出来。
- 利用AISLE框架分析RWS与STL之间的结构差异,尤其关注参数更新方式与梯度计算方式的不同。
- 将IWAE目标函数重新解释为更广泛自适应重要性采样方案中的一个特例,而非首要目标函数。
- 证明RWS在某些设置下的失效——此前归因于缺乏联合优化——实际原因在于其对提议分布质量的高度敏感性,而非缺少联合目标函数。
实验结果
研究问题
- RQ1在统一的理论框架下,IWAE与RWS之间存在何种关系?
- RQ2sticking-the-landing梯度能否在严谨的变分推断框架中得到形式化证明?
- RQ3Tucker等人(2019)中RWS的失效是否源于生成模型与推断网络之间缺乏联合目标函数?
- RQ4将变分推断的自适应重要性采样解释用于扩展至序列蒙特卡洛方法,是否比IWAE风格目标函数更具自然性和理论合理性?
- RQ5方差缩减在连接不同多样本变分推断方法中起到何种作用?
主要发现
- AISLE成功地在单一自适应重要性采样框架下统一了IWAE与RWS,表明两者均属于更广泛多样本变分推断方法类别的特例。
- sticking-the-landing梯度作为RWS在AISLE中的特例被正式推导出来,首次为该梯度的使用提供了理论依据。
- Tucker等人(2019)中观察到的RWS失效并非由于模型与推断参数之间缺乏联合目标函数,而是源于提议分布更新过程中的敏感性。
- 与IWAE风格目标函数相比,将变分推断解释为自适应重要性采样,为扩展至序列蒙特卡洛方法提供了更合理、更自然的路径。
- Tucker等人(2019)的方差缩减技术使STL梯度在AISLE框架内得以清晰推导,进一步强化了其理论合理性。
- 分析表明,RWS的核心问题并非缺乏联合优化,而是训练过程中提议分布更新方式引入的不稳定性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。