QUICK REVIEW
[论文解读] Kernel Feature Selection via Conditional Covariance Minimization
Jianbo Chen, Mitchell Stern|arXiv (Cornell University)|Jul 4, 2017
Machine Learning and Data Classification参考文献 17被引用 56
一句话总结
本文提出 CCM,一种基于核的方法,用于监督特征选择,其通过最小化条件协方差算子迹来选择一个具有预测性的特征子集,具有一致性保证和强经验性能。
ABSTRACT
We propose a method for feature selection that employs kernel-based measures of independence to find a subset of covariates that is maximally predictive of the response. Building on past work in kernel dimension reduction, we show how to perform feature selection via a constrained optimization problem involving the trace of the conditional covariance operator. We prove various consistency results for this procedure, and also demonstrate that our method compares favorably with other state-of-the-art algorithms on a variety of synthetic and real data sets.
研究动机与目标
- 将监督特征选择动机化并形式化为选择一个特征子集以最大化Y的可预测性。
- 提出基于条件协方差算子迹的相关性/预测度量。
- 随着样本量的增加,证明该准则经验估计量的一致性。
- 提供一个优化框架,通过放松和梯度方法高效选择特征。
- 在合成数据和真实数据上展示与最先进的特征选择方法的竞争性能。
提出的方法
- 在RKHS中定义条件协方差算子并将其迹与条件相关性和预测误差相关连。
- 将特征选择表述为在大小为 m 的子集 T 上最小化 Tr(Σ_YY|X_T)(单变量 Y)。
- 使用涉及居中核矩阵和 Y 的迹的基于核的经验估计,得到可解的目标函数 y^T (G_{X_T}+nεI)^{-1} y。
- 应用带有二进制选择器 w ∈ {0,1}^d 的连续放松,并通过投影梯度方法结合简单启发式来恢复离散特征集合。
- 讨论计算方面的改进:软限制、通过辅助变量避免矩阵逆,以及核近似(随机特征)以降低复杂度。
- 给出理论结果:在 ε_n→0 且 ε_n n→∞ 的条件下全局最优化解的一致性。
实验结果
研究问题
- RQ1条件协方差算子迹是否可以作为特征选择中依赖性测量与预测能力的统一准则?
- RQ2在特征子集上最小化 Tr(Σ_YY|X_T) 随样本量增长是否能得到一致的特征选择?
- RQ3如何通过连续放松在不牺牲性能的前提下高效优化离散子集选择问题?
- RQ4与现有基于核的特征选择方法(如 BAHSIC)相比,CCM 在合成数据与真实数据中的表现如何?
- RQ5该方法对非线性关系的鲁棒性如何,是否可扩展到高维现实任务?
主要发现
- CCM 提供了一个将条件相关性与预测误差联系起来的原则性的核基准准则。
- 随 n 增大,Tr(Σ_YY|X_T) 的经验估计量在选择真正的特征子集方面被证明是一致的。
- 通过带有梯度方法的放松连续形式的优化可实现可行的特征选择;通过选择最高权重进行离散化可恢复子集。
- 实验表明 CCM 在需要非线性关系的合成任务上优于或接近最先进的方法(包括 BAHSIC、mRMR、MI)。
- 在12个真实世界基准上,CCM 在所选特征的核SVM准确性方面往往高于竞争的非线性特征选择方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。