Skip to main content
QUICK REVIEW

[论文解读] Deep supervised feature selection using Stochastic Gates.

Yutaro Yamada, Ofir Lindenbaum|arXiv (Cornell University)|Oct 9, 2018
Statistical Methods and Inference参考文献 37被引用 1
一句话总结

本文提出了一种使用随机门的深度监督特征选择方法,通过端到端学习非线性函数,同时选择相关特征。通过连续松弛对 $β$-伯努利分布进行松弛,该方法实现了通过可微门进行梯度优化的特征选择,从而在高维非线性设置中实现有效的 $β$-范数最小化,并通过理论和实证验证。

ABSTRACT

Feature selection problems have been extensively studied for linear estimation, for instance, Lasso, but less emphasis has been placed on feature selection for non-linear functions. In this study, we propose a method for feature selection in high-dimensional non-linear function estimation problems. The new procedure is based on minimizing the $\ell_0$ norm of the vector of indicator variables that represent if a feature is selected or not. Our approach relies on the continuous relaxation of Bernoulli distributions, which allows our model to learn the parameters of the approximate Bernoulli distributions via gradient descent. This general framework simultaneously minimizes a loss function while selecting relevant features. Furthermore, we provide an information-theoretic justification of incorporating Bernoulli distribution into our approach and demonstrate the potential of the approach on synthetic and real-life applications.

研究动机与目标

  • 解决高维非线性函数估计中缺乏有效特征选择方法的问题,特别是超越Lasso等线性模型的方法。
  • 开发一种可微的、端到端的框架,联合优化非线性设置下的模型损失和特征选择。
  • 通过指示变量的连续松弛实现特征重要性的学习,这些指示变量表示特征是否被包含。
  • 为通过信息论方法解释伯努利分布用于特征选择提供理论基础。

提出的方法

  • 将特征选择表述为最小化表示每个特征是否被选中的指示变量的 $β$-范数。
  • 使用伯努利分布的连续松弛使选择指示变量可微,从而实现基于梯度的优化。
  • 通过由随机门机制参数化的可学习门,建模每个特征的包含概率。
  • 通过重参数化技巧在随机门上反向传播,实现模型的端到端训练。
  • 将门的输出集成到网络架构中,使得仅被选中的特征对最终预测有贡献。
  • 通过特征重要性和模型复杂度的信息论分析,为使用伯努利分布提供理论支持。

实验结果

研究问题

  • RQ1可微的、连续松弛的特征选择指示变量是否能够在高维空间中实现有效的非线性函数估计?
  • RQ2与标准的稀疏性诱导方法相比,引入具有伯努利分布特性的门变量在深层模型中如何提升特征选择性能?
  • RQ3对伯努利松弛的信息论解释在多大程度上支持该方法的泛化能力和稳定性?
  • RQ4在合成数据集和真实世界非线性数据集上,该方法与现有特征选择技术相比表现如何?

主要发现

  • 所提出的方法成功实现了深度网络的端到端训练,联合优化了预测损失和特征选择。
  • 伯努利分布的连续松弛使得能够基于梯度优化离散的特征选择决策,克服了指示变量不可微的问题。
  • 信息论的解释支持将伯努利分布作为建模特征重要性和控制模型复杂性的合理方法。
  • 在合成数据集和真实数据集上的实证结果表明,该方法在非线性设置中有效识别出相关特征。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。