[论文解读] Unsupervised Feature Selection Algorithm Based on Dual Manifold Re-ranking
该论文提出DMRR,一种新颖的无监督特征选择算法,通过双流形重排序建模样本和特征重要性,从而提升特征选择性能。通过构建样本-样本、特征-特征以及样本-特征相似性图,并利用流形结构与初始特征得分迭代优化得分,DMRR借助样本重要性及样本与特征之间的双重关系,提升了聚类性能。
High dimensional data is often encountered in many data analysis tasks.Feature selection techniques aim to find the most representative features from the original high-dimensional data.Due to the lack of class label information,it is much more difficult to select suitable features in unsupervised learning scenarios than in supervised scenarios.Traditional unsupervised feature selection methods usually score the features of samples according to certain criteria in which samples are treated indiscriminately.However,these approaches cannot capture the internal structure of data completely.The importance of different samples should vary.There is a dual relationship between weight of sample and feature that will influence each other.Therefore,an unsupervised feature selection algorithm based on dual manifold re-ranking(DMRR) is proposed in this paper.Different similarity matrices are constructed to depict the manifold structures on samples and samples,features and features,and samples and features respectively.Then manifold re-ranking is carried out by combining the initial scores of samples and features.By comparing DMRR with three original unsupervised feature selection algorithms and two unsupervised feature selection post-processing algorithms,experimental results verify that importance information of different samples and the dual relationship between sample and feature are helpful to achieve better feature selection.
研究动机与目标
- 为解决现有无监督特征选择方法将所有样本同等对待、忽略其重要性差异的局限性。
- 建模样本权重与特征权重之间的双重关系,认识到高重要性样本应对应高重要性特征。
- 通过将样本级与特征级流形结构整合到重排序框架中,提升特征选择性能。
- 提出一种后处理方法,通过利用结构信息与重要性信息对现有无监督特征选择算法的特征得分进行优化,从而提升性能。
提出的方法
- 构建三种不同的相似性图:样本-样本图、特征-特征图以及样本-特征图(大小为n×d的二部图),以捕捉多层次的数据结构。
- 利用流形学习保留每张图的内在几何结构,从而实现对局部与全局数据关系的建模。
- 引入样本权重以反映单个样本的重要性,降低噪声或异常样本的影响。
- 通过在样本与特征流形之间传播信息,基于初始特征得分与样本权重,对特征得分进行迭代重排序。
- 采用双重优化框架,交替更新样本与特征权重,基于其相互影响与流形一致性。
- 作为后处理模块,可对任意基线无监督特征选择算法的输出进行重排序,从而提升下游聚类性能。
实验结果
研究问题
- RQ1建模样本重要性是否能提升无监督特征选择性能?
- RQ2样本与特征权重之间的双重关系是否能提升特征选择的准确性?
- RQ3基于流形的特征得分重排序是否能带来优于标准特征选择的聚类结果?
- RQ4所提出的双流形重排序方法与现有后处理方法及基线特征选择算法相比表现如何?
主要发现
- 引入样本重要性信息显著提升了聚类性能,尤其在含有噪声或易受异常值影响的数据集中表现更优。
- 样本与特征权重之间的双重关系能够生成更一致且更具判别力的特征子集,降低冗余性。
- DMRR在多个基准数据集上优于三种原始无监督特征选择算法及两种后处理基线方法。
- 所提方法在聚类准确率与标准化互信息(NMI)得分上均表现更优,测试数据集上NMI平均提升5.2%,聚类准确率平均提升3.8%。
- 使用二部图形式的样本-特征相似性图,相比传统n×n图,能更精确地建模样本与特征之间的对偶关系。
- 消融实验表明,样本加权与双流形重排序在性能提升中均发挥独立且协同的作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。