[论文解读] Projection-Free Online Optimization with Stochastic Gradient: From Convexity to Submodularity
该论文提出了 Meta-Frank-Wolfe 和 One-Shot Frank-Wolfe,这是首个针对凸函数和连续 DR-子模函数使用随机梯度估计的无投影在线优化算法。通过利用方差缩减和高效的线性优化,这些方法分别实现了最优的 $O(\sqrt{T})$ 对抗性遗憾和 $O(T^{2/3})$ 随机遗憾,实验结果在新闻选择、网络流和矩阵补全任务中均优于当前最先进基线方法。
Online optimization has been a successful framework for solving large-scale problems under computational constraints and partial information. Current methods for online convex optimization require either a projection or exact gradient computation at each step, both of which can be prohibitively expensive for large-scale applications. At the same time, there is a growing trend of non-convex optimization in machine learning community and a need for online methods. Continuous DR-submodular functions, which exhibit a natural diminishing returns condition, have recently been proposed as a broad class of non-convex functions which may be efficiently optimized. Although online methods have been introduced, they suffer from similar problems. In this work, we propose Meta-Frank-Wolfe, the first online projection-free algorithm that uses stochastic gradient estimates. The algorithm relies on a careful sampling of gradients in each round and achieves the optimal $O( \\sqrt{T})$ adversarial regret bounds for convex and continuous submodular optimization. We also propose One-Shot Frank-Wolfe, a simpler algorithm which requires only a single stochastic gradient estimate in each round and achieves an $O(T^{2/3})$ stochastic regret bound for convex and continuous submodular optimization. We apply our methods to develop a novel "lifting" framework for the online discrete submodular maximization and also see that they outperform current state-of-the-art techniques on various experiments.
研究动机与目标
- 解决在部分信息环境下大规模设置中基于投影的在线优化计算效率低下的问题。
- 克服现有无投影方法的局限性,即需要精确梯度计算,而此类计算在实际中可能代价高昂或不可行。
- 为非凸但子模的优化问题开发高效的在线算法,这类问题在机器学习中正变得日益重要。
- 在无需投影的情况下,仅通过线性优化或单个梯度样本实现基于随机梯度的在线优化。
- 为在随机梯度下针对凸函数和连续 DR-子模优化提供理论遗憾界和实用算法。
提出的方法
- 提出 Meta-Frank-Wolfe,一种无投影在线算法,每轮使用多个随机梯度样本以降低方差,实现 $O(\sqrt{T})$ 遗憾。
- 提出 One-Shot Frank-Wolfe,一种更简单的变体,每轮仅使用一个随机梯度估计,实现 $O(T^{2/3})$ 遗憾。
- 借鉴 Mokhtari 等人(2018)的平均化技术,以降低随机在线设置中的梯度方差。
- 使用对约束集的线性优化代替投影,从而实现对具有复杂约束的大规模问题的可扩展性。
- 提出一种新颖的提升框架,将连续子模优化扩展至离散在线子模最大化。
- 应用多线性扩展,将离散子模函数在连续空间中建模,以实现高效优化。
实验结果
研究问题
- RQ1能否在保持最优遗憾界的同时,使无投影在线优化对随机梯度估计具有鲁棒性?
- RQ2能否有效结合方差缩减的随机梯度方法与 Frank-Wolfe 风格的线性优化,用于非凸子模目标?
- RQ3仅每轮使用一个随机梯度样本的无投影算法,其理论遗憾性能如何?
- RQ4在真实世界问题中,这些方法与现有在线算法相比,在遗憾和计算效率方面表现如何?
- RQ5能否在在线随机设置中有效利用离散子模函数的连续松弛?
主要发现
- Meta-Frank-Wolfe 使用随机梯度和方差缩减,实现了凸函数和连续 DR-子模函数的 $O(\sqrt{T})$ 对抗性遗憾。
- One-Shot Frank-Wolfe 仅需每轮一个梯度样本,即实现 $O(T^{2/3})$ 随机遗憾,提供了一种更简单的替代方案,并具有强大的理论保证。
- 使用方差缩减的 Meta-Frank-Wolfe 在新闻主题覆盖、网络流和矩阵补全任务中,其遗憾表现优于所有基线方法。
- 即使不使用方差缩减的 Meta-Frank-Wolfe 版本,其性能仍优于其他非方差缩减方法,证实了算法设计的优势。
- 使用方差缩减的 OS-Frank-Wolfe 比其非方差缩减版本遗憾更低,验证了方差缩减技术的有效性。
- 使用方差缩减的 Meta-Frank-Wolfe 在矩阵补全任务中比 OGD 快五倍,原因在于避免了昂贵的 SVD 投影,同时保持了具有竞争力的遗憾。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。