Skip to main content
QUICK REVIEW

[论文解读] Causality-based Feature Selection: Methods and Evaluations

Kui Yu, Xianjie Guo|arXiv (Cornell University)|Nov 17, 2019
Bayesian Modeling and Causal Inference参考文献 71被引用 28
一句话总结

本文全面回顾了基于因果关系的特征选择方法,提出CausalFS——一个实现最先进算法的新型开源软件包。研究表明,具有因果意识的特征选择可提升模型的可解释性与鲁棒性,尤其在处理分布偏移和噪声数据时表现更优,其中基于PC的方法在真实世界的不平衡数据集上优于马尔可夫边界方法。

ABSTRACT

Feature selection is a crucial preprocessing step in data analytics and machine learning. Classical feature selection algorithms select features based on the correlations between predictive features and the class variable and do not attempt to capture causal relationships between them. It has been shown that the knowledge about the causal relationships between features and the class variable has potential benefits for building interpretable and robust prediction models, since causal relationships imply the underlying mechanism of a system. Consequently, causality-based feature selection has gradually attracted greater attentions and many algorithms have been proposed. In this paper, we present a comprehensive review of recent advances in causality-based feature selection. To facilitate the development of new algorithms in the research area and make it easy for the comparisons between new methods and existing ones, we develop the first open-source package, called CausalFS, which consists of most of the representative causality-based feature selection algorithms (available at https://github.com/kuiy/CausalFS). Using CausalFS, we conduct extensive experiments to compare the representative algorithms with both synthetic and real-world data sets. Finally, we discuss some challenging problems to be tackled in future causality-based feature selection research.

研究动机与目标

  • 为解决仅依赖相关性的经典特征选择方法存在的局限性,这些方法可能导致非可解释或非鲁棒的特征。
  • 开发一个统一的开源框架CausalFS,以标准化基于因果关系的特征选择算法的实现与比较。
  • 在合成数据与真实世界数据上评估基于因果关系的方法性能,尤其在类别不平衡与数据噪声等挑战性条件下。
  • 识别并解决基于因果关系的特征选择中的关键开放问题,包括流数据处理、弱监督以及分布偏移。

提出的方法

  • 作者实现了多种基于因果关系的特征选择算法,包括PC、HITON-PC、MMPC、GetPC、MBtoPC、SLL、S2TMB和IPCMB,采用基于约束和基于评分的方法。
  • 该框架利用贝叶斯网络与马尔可夫边界,识别目标变量的直接原因,确保因果相关性而非仅相关性。
  • 应用反向策略与对称性检查,以提高因果结构学习中的精确度并减少假阳性结果。
  • CausalFS软件包支持PC与MB学习,可在高维数据上实现高效且可扩展的特征选择。
  • 在合成数据上进行实验以评估精确度,在真实世界数据集(如dorothea、bankrupty、infant)上评估类别不平衡下的AUC性能。
  • 本研究对比了基于约束的方法(如HITON-PC)与基于评分的方法(如IPCMB),突出其在准确性、速度与数据效率方面的权衡。

实验结果

研究问题

  • RQ1在具有已知因果结构的合成数据上,基于因果关系的特征选择方法与经典的相关性方法相比,在精确度与鲁棒性方面表现如何?
  • RQ2在真实世界类别不平衡的数据集上,基于因果关系的方法性能如何?与传统特征选择方法相比,其AUC与计算效率表现如何?
  • RQ3基于因果关系的方法能否有效处理存在缺失或噪声特征的低质量数据?此类场景下需要哪些改进?
  • RQ4在线或流式数据环境下,基于因果关系的特征选择算法在可扩展性与准确性方面受到何种影响?
  • RQ5基于因果关系的方法在分布偏移条件下能在多大程度上缓解性能下降?如何可靠地区分原因与结果?

主要发现

  • 反向策略与对称性检查显著提升了基于因果关系的特征选择的精确度,在合成数据实验中有效减少了假阳性结果。
  • 在真实世界类别不平衡的数据集上,选择类别变量的PC(马尔可夫毯)可获得更优的分类性能,且显著快于选择完整MB。
  • 基于评分的PC与MB学习算法相比基于约束的方法展现出更优的数据效率,尤其在高维或小样本设置下。
  • 在所评估的方法中,IPCMB与MBtoPC在类别不平衡数据集上取得最高AUC得分(如dorothea上为0.78/0.74,bankrupty上为0.77/0.78),优于基线方法。
  • SLL与S2TMB表现持续不佳,多数真实世界数据集上AUC仅为0.50,表明其在处理复杂或不平衡数据方面存在局限性。
  • 尽管具有强大的理论优势,现有基于因果关系的方法在真实世界数据质量问题(如缺失值与噪声)上仍表现吃力,凸显了一个关键的开放挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。