Skip to main content
QUICK REVIEW

[论文解读] Variational Information Maximization for Feature Selection

Shuyang Gao, Greg Ver Steeg|arXiv (Cornell University)|Jun 9, 2016
Face and Expression Recognition参考文献 24被引用 37
一句话总结

本文提出了一种新颖的变分信息最大化框架用于特征选择,通过使用互信息的可 tractable 下界来克服直接估计互信息的不可行性。通过利用变分分布——特别是朴素贝叶斯和成对 Q-分布——该方法在树状图模型下实现了具有理论最优性保证的贪心前向特征选择,在多种数据集上的实证评估中优于现有的信息论方法。

ABSTRACT

Feature selection is one of the most fundamental problems in machine learning. An extensive body of work on information-theoretic feature selection exists which is based on maximizing mutual information between subsets of features and class labels. Practical methods are forced to rely on approximations due to the difficulty of estimating mutual information. We demonstrate that approximations made by existing methods are based on unrealistic assumptions. We formulate a more flexible and general class of assumptions based on variational distributions and use them to tractably generate lower bounds for mutual information. These bounds define a novel information-theoretic framework for feature selection, which we prove to be optimal under tree graphical models with proper choice of variational distributions. Our experiments demonstrate that the proposed method strongly outperforms existing information-theoretic feature selection approaches.

研究动机与目标

  • 解决现有信息论特征选择方法的局限性,这些方法依赖于关于特征独立性和类条件独立性的相互矛盾的假设。
  • 开发一种基于变分下界互信息的可计算、通用的特征选择框架,避免启发式近似。
  • 通过合理选择变分分布,在树状图模型下为所提方法提供理论最优性保证。
  • 在基准数据集上实证验证该方法优于最先进信息论特征选择方法的优越性。

提出的方法

  • 构建所选特征与类别标签之间互信息的变分下界,实现可计算的优化。
  • 使用马尔可夫随机场分解方法,通过逐步最大化变分下界来实现前向特征选择。
  • 提出两种特定的变分分布:用于建模依赖关系的朴素贝叶斯模型和成对 Q-分布。
  • 推导出一种贪心前向选择算法,每次新增特征均基于增量最大化下界来选择。
  • 在变分分布下使用熵近似来计算目标函数,无需进行完整的高维密度估计。
  • 提供严格证明:当变分分布与真实条件依赖关系匹配时,在树状图模型下,该前向选择过程是理论最优的。

实验结果

研究问题

  • RQ1能否利用互信息的变分下界来构建一个理论基础坚实且计算可处理的特征选择框架?
  • RQ2现有基于互信息的特征选择方法中常用的独立性假设是否相互矛盾?若矛盾,如何缓解?
  • RQ3所提出的变分框架在真实世界数据集上是否优于现有信息论特征选择方法?
  • RQ4在何种条件下,基于变分下界的贪心前向选择可被严格证明为最优?

主要发现

  • 所提出的 VMI 方法,特别是 VMIpairwise 变体,在 15 个基准数据集上实现了最低的平均交叉验证误差,优于所有基线方法,包括 mRMR、JMI、CMIM 和 CIFE。
  • VMInaive(仅假设朴素贝叶斯模型)实现了最先进性能,证明了即使在最小结构假设下,该变分框架也极为有效。
  • 在 Gisette 数据集上,VMIpairwise 的平均误差率为 4.2±0.8%,显著低于次优方法(VMInaive 为 4.8±0.9%),远优于 CIFE(7.1±1.3%)。
  • 在 Madelon 数据集上,VMIpairwise 的误差率为 16.6±2.9%,而 mRMR 为 30.8±3.8%,JMI 为 15.3±2.6%,表明其在高维、噪声数据中表现强劲。
  • 该方法在多种数据类型中表现出一致的优越性,包括高维、小样本和类别不平衡数据集(如 Colon、Leukemia 和 Landsat)。
  • 当变分分布被适当地选择时,该框架在树状图模型下提供理论最优性保证,这是以往信息论方法所不具备的特性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。