[论文解读] Online Group Feature Selection
本文提出在线组特征选择(OGFS),一种两阶段方法,用于在特征以组形式到达时实时选择判别性特征。它采用谱分析进行组内选择,利用Lasso进行组间冗余减少,相较于现有最先进在线特征选择方法,在基准数据集和真实世界数据集上实现了更优的分类准确率和更紧凑的特征集。
Online feature selection with dynamic features has become an active research area in recent years. However, in some real-world applications such as image analysis and email spam filtering, features may arrive by groups. Existing online feature selection methods evaluate features individually, while existing group feature selection methods cannot handle online processing. Motivated by this, we formulate the online group feature selection problem, and propose a novel selection approach for this problem. Our proposed approach consists of two stages: online intra-group selection and online inter-group selection. In the intra-group selection, we use spectral analysis to select discriminative features in each group when it arrives. In the inter-group selection, we use Lasso to select a globally optimal subset of features. This 2-stage procedure continues until there are no more features to come or some predefined stopping conditions are met. Extensive experiments conducted on benchmark and real-world data sets demonstrate that our proposed approach outperforms other state-of-the-art online feature selection methods.
研究动机与目标
- 解决现有在线特征选择方法仅将特征视为独立个体、忽略真实应用场景中普遍存在的组结构的问题,如图像分析和垃圾邮件过滤。
- 建立在线组特征选择问题的数学形式,即特征以组形式到达,需在未知完整特征空间的前提下动态选择。
- 设计一种两阶段框架,结合组内判别性特征选择与组间冗余减少,实现最优子集选择。
- 在真实世界与基准数据集上,相较于现有在线特征选择方法,在分类准确率与特征集紧凑性方面均实现超越。
提出的方法
- 该方法引入两阶段流程:通过谱分析实现在线组内选择,识别每组到达特征中的判别性特征。
- 针对组间选择,应用改进的基于Lasso的稀疏线性回归模型,从迄今为止已见的所有组中选择全局最优子集。
- 利用谱分析基于判别能力计算每组内特征的重要性,实现在每组到达时的动态选择。
- Lasso组件通过惩罚非零系数来减少组间冗余,促进生成紧凑且信息丰富的特征子集。
- 该算法采用增量式操作,每接收一组新特征后即更新所选特征集,无需预先知晓完整特征空间。
- 该框架具备自适应性与可扩展性,能够处理具有分组特征到达模式的高维数据流。
实验结果
研究问题
- RQ1能否有效将在线特征选择扩展至处理以组形式到达的特征,而非单个独立特征,以应对动态数据流?
- RQ2如何利用组级别特征关系来提升在线设置下的特征选择性能?
- RQ3结合组内与组间选择的两阶段方法,是否能在准确率与紧凑性方面超越现有在线特征选择方法?
- RQ4在具有组结构的流式数据中,引入谱分析与Lasso在多大程度上提升了特征选择效果?
主要发现
- 在基准数据集上,OGFS在8个数据集中的7个上优于基线方法,分类准确率更高,且紧凑性显著更优。
- 在Colon与Leukemia数据集上,OGFS分别取得0.91与1.0的分类准确率,而Alpha-investing仅为0.80与0.65,表明OGFS在准确率上表现更优,尽管Alpha-investing的紧凑性更高。
- 在15 Scenes数据集上,OGFS取得0.54的准确率,显著优于Alpha-investing的0.393,且Fast-OSFS因内存限制而失败。
- 在真实世界数据集上,OGFS在Soccer数据集上达到最高准确率,并在Flower-17与Soccer数据集上与Fast-OSFS相比准确率相当或更优,同时特征集更紧凑。
- OGFS在多种数据类型中保持高性能,包括具有预设组结构的高维图像数据,证明了其鲁棒性与可扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。