Skip to main content
QUICK REVIEW

[论文解读] Learning with Pseudo-Ensembles

Phil Bachman, Ouais Alsharif|arXiv (Cornell University)|Dec 16, 2014
Tensor decomposition and applications参考文献 22被引用 360
一句话总结

本文提出了伪集成(pseudo-ensembles)——一种通过受控噪声过程从单个父模型生成一系列扰动子模型的框架,用于训练鲁棒模型。该方法提出了一种新型正则化器,增强了模型对输入噪声和结构噪声的鲁棒性,在半监督学习中达到最先进性能,并显著提升了递归神经张量网络在情感分析基准上的表现,超越了原始模型。

ABSTRACT

We formalize the notion of a pseudo-ensemble, a (possibly infinite) collection of child models spawned from a parent model by perturbing it according to some noise process. E.g., dropout (Hinton et. al, 2012) in a deep neural network trains a pseudo-ensemble of child subnetworks generated by randomly masking nodes in the parent network. We present a novel regularizer based on making the behavior of a pseudo-ensemble robust with respect to the noise process generating it. In the fully-supervised setting, our regularizer matches the performance of dropout. But, unlike dropout, our regularizer naturally extends to the semi-supervised setting, where it produces state-of-the-art results. We provide a case study in which we transform the Recursive Neural Tensor Network of (Socher et. al, 2013) into a pseudo-ensemble, which significantly improves its performance on a real-world sentiment analysis benchmark.

研究动机与目标

  • 将伪集成的概念形式化为一种统一框架,涵盖如dropout和特征噪声等方法。
  • 开发一种正则化器,使模型行为对输入和内部结构的扰动均保持鲁棒。
  • 将类似dropout的正则化方法扩展至半监督学习,该领域传统上缺乏坚实的理论基础。
  • 通过系统性地扰动参数和潜在空间,提升现有模型(如递归神经张量网络)的性能。

提出的方法

  • 伪集成被定义为通过噪声过程 $ p_{\xi} $ 扰动父模型而生成的一组子模型,其中每个 $ f_{\theta}(x;\xi) $ 是父模型 $ f_{\theta} $ 的扰动版本。
  • 核心正则化器通过最小化所有扰动子模型的期望损失来实现,形式化为 $ \mathbb{E}_{(x,y)\sim p_{xy}} \mathbb{E}_{\xi\sim p_{\xi}} \mathcal{L}(f_{\theta}(x;\xi), y) $。
  • 在RNTN上应用了两种扰动机制:(1) 子空间采样,即每次前向传播仅使用一半的潜在维度;(2) 权重模糊化,即在训练过程中用均值为零的高斯噪声扰动参数。
  • 权重模糊化可被解释为将损失函数与高斯核进行隐式卷积,从而降低曲率并提升优化稳定性。
  • 该方法使用参数切片技术以在训练期间保持计算效率,尤其对RNTN这类具有 $ \mathcal{O}(n^3) $ 复杂度的模型至关重要。
  • 该框架自然可扩展至半监督学习,在真实世界数据集上优于现有方法。

实验结果

研究问题

  • RQ1我们如何正式定义并统一dropout和特征噪声等方法,作为模型扰动的单一框架?
  • RQ2伪集成与依赖独立模型训练的传统集成方法之间存在何种关系?
  • RQ3基于模型空间扰动鲁棒性的正则化器是否能在全监督设置中超越标准dropout?
  • RQ4该正则化器是否能有效泛化至半监督学习,该领域此前尚未广泛采用此类方法?
  • RQ5通过在潜在空间和参数中进行结构化扰动,能否显著提升强模型(如RNTN)的性能?

主要发现

  • 所提出的正则化器在全监督设置中达到与标准dropout相当的性能,验证了其有效性。
  • 该方法在半监督学习中实现了最先进性能,在真实世界数据集上优于现有方法。
  • 当应用于递归神经张量网络时,结合子空间采样与权重模糊化的伪集成方法在二元情感分类任务中达到88.9%的准确率,超越了原始RNTN及其他基线模型。
  • 仅使用子空间采样即提升了性能,而权重模糊化进一步增强了效果,两种扰动方式对性能增益具有累加贡献。
  • 两种扰动方式的结合使紧凑的RNTN模型性能超越了原始的完整RNTN,证明了结构化模型空间正则化的强大能力。
  • 参数切片的使用使得更大规模模型的训练更加高效,即使在RNTN的 $ \mathcal{O}(n^3) $ 复杂度下,该方法仍具备可扩展性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。