Skip to main content
QUICK REVIEW

[论文解读] TCMI: a non-parametric mutual-dependence estimator for multivariate continuous distributions

Benjamin Regler, Matthias Scheffler|arXiv (Cornell University)|Jan 30, 2020
Computational Drug Discovery Methods参考文献 94被引用 4
一句话总结

本文提出TCMI,一种用于连续分布中多元互依性的非参数、鲁棒估计器,通过使用累积概率分布扩展互信息,以克服在小样本或噪声连续数据中估计概率密度的局限性。TCMI通过基于变量集对目标的非线性统计依赖性进行排序,实现可靠的特征选择,在模拟数据和真实世界材料科学数据集中表现出优越性能。

ABSTRACT

The identification of relevant features, i.e., the driving variables that determine a process or the properties of a system, is an essential part of the analysis of data sets with a large number of variables. A mathematical rigorous approach to quantifying the relevance of these features is mutual information. Mutual information determines the relevance of features in terms of their joint mutual dependence to the property of interest. However, mutual information requires as input probability distributions, which cannot be reliably estimated from continuous distributions such as physical quantities like lengths or energies. Here, we introduce total cumulative mutual information (TCMI), a measure of the relevance of mutual dependences that extends mutual information to random variables of continuous distribution based on cumulative probability distributions. TCMI is a non-parametric, robust, and deterministic measure that facilitates comparisons and rankings between feature sets with different cardinality. The ranking induced by TCMI allows for feature selection, i.e., the identification of variable sets that are nonlinear statistically related to a property of interest, taking into account the number of data samples as well as the cardinality of the set of variables. We evaluate the performance of our measure with simulated data, compare its performance with similar multivariate-dependence measures, and demonstrate the effectiveness of our feature-selection method on a set of standard data sets and a typical scenario in materials science.

研究动机与目标

  • 解决在样本量有限时,由于概率密度估计不稳定,导致在多变量连续分布中可靠估计互信息的挑战。
  • 开发一种非参数、确定性且鲁棒的互依性度量方法,同时考虑样本大小和变量集基数。
  • 通过根据变量子集对目标属性的非线性统计依赖性进行排序,实现有效的特征选择,即使变量具有不同的基数。
  • 克服现有依赖度量方法(如尺度和排列敏感性)在连续数据特征选择中常见的局限性。
  • 在真实世界数据中展示TCMI在识别相关特征方面的有效性,特别是在涉及带隙等物理性质的材料科学应用中。

提出的方法

  • 提出总体累积互信息(TCMI)作为基于经验累积分布函数(ECDF)而非概率密度函数(PDF)的非参数估计器。
  • 使用经验累积熵来估计连续随机变量的信息量,避免了带宽选择的核密度估计。
  • 将TCMI定义为基于Y的累积分布和(X,Y)的联合累积分布,衡量目标变量Y与特征集X之间的联合互依性。
  • 采用非参数、确定性方法,避免对底层分布的假设,增强对小样本或噪声数据的鲁棒性。
  • 将TCMI集成到基于分支限界或贪婪策略的特征子集搜索框架中,用于对最优特征集进行排序和选择。
  • 使用10折交叉验证与梯度提升决策树(LightGBM)验证该方法,评估在基准数据集上的预测性能。

实验结果

研究问题

  • RQ1能否开发一种非参数互依性估计器,可靠量化连续分布中的多变量依赖关系,而无需依赖密度估计?
  • RQ2在小样本或噪声数据集上,TCMI与现有多变量依赖度量(如CMI、MAC、UDS、MCDE)相比,在特征选择准确性和鲁棒性方面表现如何?
  • RQ3TCMI在真实世界材料科学数据中,特别是在预测带隙等物理性质时,对特征选择性能的提升程度如何?
  • RQ4TCMI在对变量子集进行排序时,能否有效兼顾样本大小和特征集基数,从而实现在不同特征组合间的公平比较?
  • RQ5在模拟和实证数据中,TCMI在识别非线性、多变量依赖关系方面,相较于参数化或基于密度的替代方法表现如何?

主要发现

  • TCMI在识别八价二元化合物半导体带隙预测的相关特征子集方面,显著优于CMI、MAC、UDS和MCDE,使用9个变量的特征集时,皮尔逊决定系数R²达到0.87。
  • 当使用全部16个特征时,RMSE为0.15 eV,MAE为0.09 eV,表明其具有强大的预测能力。
  • 由于依赖累积分布而非密度估计,TCMI在特征选择中表现出卓越的鲁棒性和一致性,特别是在数据有限的情况下。
  • TCMI选择的特征子集(9个变量)R²为0.87,优于其他方法如UDS(R² = 0.86)和MCDE(R² = 0.89),在某些情况下误差指标更低。
  • TCMI有效处理了非线性依赖关系,并避免了CMI和MAC等方法常见的排列和尺度敏感性问题,尤其在材料科学数据中表现突出。
  • 使用LightGBM进行10折交叉验证并结合早停策略,证实TCMI所选特征可生成稳定且泛化能力强的模型,性能在多个随机划分中保持一致。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。