[论文解读] Multivariate feature ranking of gene expression data
本文提出了两种新颖的多变量特征排序方法——成对相关性(Pairwise Correlation)与成对一致性(Pairwise Consistency)——用于高维基因表达数据,这些方法基于每个基因与其他所有基因的平均相关性或一致性来评估其重要性。在癌症、脑组织及脑龄分类任务中,该方法显著优于单变量和多变量最先进的特征排序与子集评估技术。
Gene expression datasets are usually of high dimensionality and therefore require efficient and effective methods for identifying the relative importance of their attributes. Due to the huge size of the search space of the possible solutions, the attribute subset evaluation feature selection methods tend to be not applicable, so in these scenarios feature ranking methods are used. Most of the feature ranking methods described in the literature are univariate methods, so they do not detect interactions between factors. In this paper we propose two new multivariate feature ranking methods based on pairwise correlation and pairwise consistency, which we have applied in three gene expression classification problems. We statistically prove that the proposed methods outperform the state of the art feature ranking methods Clustering Variation, Chi Squared, Correlation, Information Gain, ReliefF and Significance, as well as feature selection methods of attribute subset evaluation based on correlation and consistency with multi-objective evolutionary search strategy.
研究动机与目标
- 解决单变量特征排序方法在捕捉高维基因表达数据中基因相互作用方面的局限性。
- 开发考虑基因对之间关系的多变量特征排序技术,以提升特征重要性估计的准确性。
- 在真实世界的基因表达分类问题中,将所提方法与已建立的单变量和多变量特征排序及子集评估方法进行对比评估。
- 证明多变量排序方法即使在使用强大搜索策略的复杂属性子集评估方法中,也能在高维设置下表现更优。
- 为大规模基因表达数据集提供一种计算高效的替代方案,以替代昂贵的包装器方法与子集评估方法。
提出的方法
- 提出成对相关性(Pairwise Correlation),一种多变量特征排序方法,通过计算每个基因与所有其他基因之间的平均相关性来评估其重要性。
- 提出成对一致性(Pairwise Consistency),一种多变量方法,通过计算每个基因与所有其他基因之间的一致性(排名一致性)的平均值来评估其重要性。
- 将两种方法作为基于过滤的特征排序技术应用,根据基因间的成对交互作用为每个基因分配全局重要性得分。
- 使用10折交叉验证(重复10次)和八种不同的分类算法,以准确率为首要指标评估性能。
- 将所提方法与六种单变量和多变量特征排序方法(如卡方检验、信息增益、ReliefF)以及两种基于多目标进化算法的属性子集评估方法进行比较。
- 执行统计显著性检验(如非参数检验),以验证性能差异,并计算所有实验中的胜/负排名。
实验结果
研究问题
- RQ1考虑基因对之间相互作用的多变量特征排序方法是否能在基因表达分类任务中优于单变量特征排序方法?
- RQ2所提出的成对相关性与成对一致性方法是否在分类性能上优于最先进的单变量与多变量特征排序技术?
- RQ3在高维基因表达数据中,多变量特征排序方法是否能够超越基于相关性与一致性的多目标进化搜索策略的复杂属性子集评估方法?
- RQ4在多个基因表达数据集与分类算法中,所提方法在统计显著性与一致性方面表现如何?
- RQ5特征排序的计算效率是否足以在极高维数据集中超越更复杂的子集评估方法?
主要发现
- 在所有三个基因表达分类问题中(癌症RNA-Seq、脑组织GTEx RNA、脑龄GTEx RNA),成对相关性与成对一致性分别排名第一和第二,总共赢26场和26场。
- 所提多变量方法显著优于单变量方法(如相关性、卡方检验、信息增益、ReliefF),其中成对相关性取得11场胜利,成对一致性取得26场胜利。
- 尽管ReliefF是多变量方法,但其表现仍低于卡方检验与显著性检验等单变量方法,表明其在高维基因表达数据中存在适用性局限。
- 尽管采用多目标进化算法(MOEA)进行复杂搜索,多变量排序方法仍优于基于相关性与一致性的属性子集评估方法。
- 基因表达数据集的搜索空间极为庞大——例如,癌症RNA-Seq数据集的候选子集数量高达2.8e+6180——使得子集评估方法在计算上不可行。
- 统计检验证实,所提方法与基线方法之间的性能差异具有统计显著性,进一步验证了结果的稳健性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。