Skip to main content
QUICK REVIEW

[论文解读] DimReduction - Interactive Graphic Environment for Dimensionality Reduction

Fabrício Martins Lopes, David Martins|May 26, 2008
Data Visualization and Analytics参考文献 13被引用 40
一句话总结

本文提出 DimReduction,一个开源、多平台的交互式图形化环境,用于生物信息学中的降维分析,重点聚焦于结合多种准则函数的穷举搜索、序列前向搜索和浮动前向搜索算法进行特征选择。该方法在分类乳腺癌细胞时达到99.96%的高准确率,并能有效恢复基因调控网络,且假阳性结果极少。

ABSTRACT

Feature selection is a pattern recognition approach to choose important variables according to some criteria to distinguish or explain certain phenomena. There are many genomic and proteomic applications which rely on feature selection to answer questions such as: selecting signature genes which are informative about some biological state, e.g. normal tissues and several types of cancer; or defining a network of prediction or inference among elements such as genes, proteins, external stimuli and other elements of interest. In these applications, a recurrent problem is the lack of samples to perform an adequate estimate of the joint probabilities between element states. A myriad of feature selection algorithms and criterion functions are proposed, although it is difficult to point the best solution in general. The intent of this work is to provide an open-source multiplataform graphical environment to apply, test and compare many feature selection approaches suitable to be used in bioinformatics problems.

研究动机与目标

  • 解决高维、小样本生物信息学数据集(如基因表达谱)中的维度灾难问题。
  • 提供一个无需编程经验即可测试和比较各种特征选择算法与准则函数的易用、交互式图形化环境。
  • 通过集成误差估计、交叉验证和可视化工具,实现基因组学与蛋白质组学中准确的分类与网络推断。
  • 支持特征选择,并为未来扩展至主成分分析(PCA)等特征提取方法提供支持。

提出的方法

  • 该软件实现了三种特征选择搜索算法:穷举搜索(最优)、序列前向选择(SFS)和序列前向浮动选择(SFFS),在最优性与计算成本之间实现平衡。
  • 支持多种准则函数,包括基于分类器误差、条件熵和距离度量的函数,并通过嵌入惩罚项处理稀有或未观测到的样本,以提升泛化能力。
  • 通过重代入法、留一法、交叉验证和自助法进行误差估计,并采用最近邻方法对未观测到的样本进行泛化处理。
  • 系统提供向导式界面,包含数据输入、特征选择、误差估计和可视化等标签页,实现用户友好的交互。
  • 通过有向图(网络)、散点图和平行坐标图实现可视化,用于评估类别分离程度和特征相关性。
  • 该软件采用 Java 编写,具备跨平台兼容性,为开源软件,托管于 Google Code 以支持社区开发。
(a) Upload the biological data
(a) Upload the biological data

实验结果

研究问题

  • RQ1交互式、用户友好的图形化环境在提升高维生物数据中特征选择方法的可访问性与可比性方面有何作用?
  • RQ2在使用微阵列数据对乳腺癌细胞进行分类时,不同特征选择算法(如 SFS、SFFS、穷举法)的性能如何?
  • RQ3该软件在有限样本的人工时间序列数据中,能在多大程度上恢复已知的基因调控网络?
  • RQ4将误差估计与稀有实例的惩罚机制相结合,在提升分类器泛化能力方面有多大的有效性?

主要发现

  • 在包含589个样本和32个特征的乳腺癌数据集上,10折交叉验证实验中,该软件实现了99.96%的平均分类准确率。
  • 从人工数据中恢复的基因调控网络未出现假阴性,仅存在少数假阳性,表明其在网络重建方面表现优异。
  • 采用惩罚准则函数显著提升了泛化能力,有效考虑了未观测到或极少出现的特征模式。
  • 交互式可视化工具(包括平行坐标图和网络图)能有效展示选定子集中类别的分离情况与特征相关性。
  • 该系统成功支持特征选择,并为未来集成主成分分析(PCA)等特征提取方法提供了良好基础。
(b) Quantization process
(b) Quantization process

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。