Skip to main content
QUICK REVIEW

[论文解读] Stochastic Particle Gradient Descent for Infinite Ensembles

Atsushi Nitanda, Taiji Suzuki|arXiv (Cornell University)|Dec 14, 2017
Stochastic Gradient Optimization Techniques参考文献 19被引用 28
一句话总结

本文提出随机粒子梯度下降(SPGD),一种新颖的无限集成学习方法,通过在连续参数化的基分类器上使用输运映射优化概率测度,实现对L¹和非负性约束的精确处理。通过在概率测度空间中建模问题,SPGD无需早停即可严格处理L¹和非负性约束,其收敛速率与有限维非凸随机优化相当,并在泛化性和局部最优性方面提供了理论保证。

ABSTRACT

The superior performance of ensemble methods with infinite models are well known. Most of these methods are based on optimization problems in infinite-dimensional spaces with some regularization, for instance, boosting methods and convex neural networks use $L^1$-regularization with the non-negative constraint. However, due to the difficulty of handling $L^1$-regularization, these problems require early stopping or a rough approximation to solve it inexactly. In this paper, we propose a new ensemble learning method that performs in a space of probability measures, that is, our method can handle the $L^1$-constraint and the non-negative constraint in a rigorous way. Such an optimization is realized by proposing a general purpose stochastic optimization method for learning probability measures via parameterization using transport maps on base models. As a result of running the method, a transport map to output an infinite ensemble is obtained, which forms a residual-type network. From the perspective of functional gradient methods, we give a convergence rate as fast as that of a stochastic optimization method for finite dimensional nonconvex problems. Moreover, we show an interior optimality property of a local optimality condition used in our analysis.

研究动机与目标

  • 为解决传统集成方法依赖早停或近似正则化来处理L¹约束的局限性。
  • 通过在概率测度上进行优化而非有限组合,建立无限集成学习的严格框架。
  • 为在与有限情况相同条件下,无限集成的收敛性提供理论保证,并给出泛化边界。
  • 在L²空间中建立输运映射的功能梯度下降视角,实现连续参数化的随机优化。
  • 证明在局部最优条件下,具有连续密度的概率测度满足内部最优性性质。

提出的方法

  • SPGD在一组连续参数化的基分类器的概率测度空间中进行优化,实现对L¹和非负性约束的精确处理。
  • 该方法使用输运映射来参数化概率测度,其中每个映射φ将基测度μ₀变换为目标测度μ = φ♯μ₀。
  • 通过规则φ⁺ ← φ + ξ∘φ对输运映射φ执行随机梯度更新,该规则对应于沿由经验风险梯度导出的速度场推动测度。
  • 该更新被解释为在L²(μ₀)空间上的随机功能梯度下降,梯度通过损失泛函的Fréchet导数计算。
  • 该方法通过迭代输运映射更新近似Wasserstein空间P₂中的梯度流,实现离散化。
  • 提出了两种实用变体:一种使用有限粒子近似测度(形成残差型网络),另一种无需重采样,等价于非加权投票分类的充分初始化SGD。

实验结果

研究问题

  • RQ1能否在概率测度空间中严格表述并优化无限集成学习,以避免近似正则化或早停?
  • RQ2在具有L¹约束的无限维概率测度上运行的随机优化方法的收敛速率是多少?
  • RQ3有限集成的泛化边界如何推广到无限集成?能否通过减少经验边缘分布来改进?
  • RQ4输运映射在实现无限集成上的功能梯度下降中起什么作用?其与残差网络有何关联?
  • RQ5在何种条件下,具有连续密度的概率测度可实现局部最优?其满足何种内部最优性性质?

主要发现

  • 尽管在无限维概率测度空间中运行,SPGD的收敛速率与有限维非凸问题的随机优化相当。
  • 该方法为无限集成提供了几乎与有限或可数集成相同的泛化边界,且经验边缘分布减少效果更优。
  • 证明了具有连续密度的概率测度的局部最优性条件可推出内部最优性性质,即在适当假设下,该测度在其自身支撑集内是最优的。
  • 输运映射更新规则φ⁺ ← φ + ξ∘φ实现了Wasserstein空间中梯度流的自然离散化,将该方法与连续时间动力学联系起来。
  • SPGD的有限粒子近似形成一种残差型神经网络,为该方法提供了深度学习的解释。
  • 无重采样变体的SPGD被证明等价于非加权投票分类的充分初始化SGD,从而将经典集成方法与新框架相连接。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。