Skip to main content
QUICK REVIEW

[论文解读] Scalable Greedy Feature Selection via Weak Submodularity

Rajiv Khanna, Ethan R. Elenberg|arXiv (Cornell University)|Mar 8, 2017
Complexity and Algorithms in Graphs参考文献 19被引用 28
一句话总结

本文将两种可扩展的贪心特征选择算法——DistributedGreedy 和 StochasticGreedy 的理论保证,从子模函数扩展到弱子模函数,表明有界子模比足以实现乘法近似保证。主要贡献在于将这些快速算法的应用范围扩展至稀疏线性回归(含RIP设计矩阵)和逻辑回归等任务,实证验证表明其在速度-精度权衡方面表现更优。

ABSTRACT

Greedy algorithms are widely used for problems in machine learning such as feature selection and set function optimization. Unfortunately, for large datasets, the running time of even greedy algorithms can be quite high. This is because for each greedy step we need to refit a model or calculate a function using the previously selected choices and the new candidate. Two algorithms that are faster approximations to the greedy forward selection were introduced recently ([Mirzasoleiman et al. 2013, 2015]). They achieve better performance by exploiting distributed computation and stochastic evaluation respectively. Both algorithms have provable performance guarantees for submodular functions. In this paper we show that divergent from previously held opinion, submodularity is not required to obtain approximation guarantees for these two algorithms. Specifically, we show that a generalized concept of weak submodularity suffices to give multiplicative approximation guarantees. Our result extends the applicability of these algorithms to a larger class of functions. Furthermore, we show that a bounded submodularity ratio can be used to provide data dependent bounds that can sometimes be tighter also for submodular functions. We empirically validate our work by showing superior performance of fast greedy approximations versus several established baselines on artificial and real datasets.

研究动机与目标

  • 将可扩展贪心算法的理论性能保证扩展至子模函数之外。
  • 证明弱子模性(通过有界子模比表征)足以确保 DistributedGreedy 和 StochasticGreedy 的近似保证。
  • 基于子模比提供数据依赖的边界,其紧致性优于子模函数的标准保证。
  • 通过合成数据和真实世界数据集的实证验证,证明快速贪心近似方法在非子模函数(如线性回归和逻辑回归)任务中的性能提升。

提出的方法

  • 提出基于有界子模比 γ 的弱子模性广义概念,放宽了对严格子模性的要求。
  • 改进 Nemhauser 等人的分析方法,证明在弱子模性下,贪心算法可实现 (1 - 1/e)γ 的近似保证。
  • 将该框架应用于受限等距性(RIP)下的稀疏线性回归,证明 R² 集函数在有界 γ 下为弱子模。
  • 将结果扩展至凹集函数(如广义线性模型中的对数似然),在受限强凸性(RSC)条件下成立。
  • 采用 DistributedGreedy 和 StochasticGreedy 算法,分别通过分块处理和随机评估实现贪心选择的可扩展性。
  • 利用子模比推导出数据依赖的性能边界,其紧致性优于子模函数的标准 (1 - 1/e) 因子。

实验结果

研究问题

  • RQ1DistributedGreedy 和 StochasticGreedy 的性能保证能否扩展至子模函数之外?
  • RQ2通过有界子模比定义的弱子模性,是否足以确保贪心算法的乘法近似保证?
  • RQ3基于子模比的数据依赖边界能否优于子模函数的标准 (1 - 1/e) 保证?
  • RQ4这些快速贪心算法在非子模函数(如稀疏线性回归和逻辑回归)上的实际表现如何?

主要发现

  • 理论分析表明,当目标函数为具有子模比 γ 的弱子模函数时,DistributedGreedy 和 StochasticGreedy 均可实现 (1 - 1/e)γ 的近似保证。
  • 在合成数据上的实证结果表明,两种算法在分布式线性回归任务中,于对数似然和泛化性能方面均优于 Lasso 和 Lasso+。
  • 在含 140,250 个特征的 Electricity 数据集上,Distributed Forward Selection 在所有测试方法中实现了最高的似然和最佳的泛化得分。
  • 在 gisette 数据集上的稀疏逻辑回归任务中,StochasticGreedy 实现了显著的速度提升,且对数似然损失极小,即使 δ 值高达 0.5 亦然。
  • 子模比 γ 能够提供比标准 (1 - 1/e) 因子更紧致的数据依赖边界,尤其在 γ 较大时表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。