[论文解读] Feature Importance Ranking for Deep Learning
提出一种双网络架构(算子网络和选择器网络)以发现一个最优的固定大小特征子集并对深度学习中的特征重要性进行排序,采用交替训练和随机局部搜索来应对组合优化;在合成数据、基准数据集和真实数据集上展示了优越的FIR和特征选择性能。
Feature importance ranking has become a powerful tool for explainable AI. However, its nature of combinatorial optimization poses a great challenge for deep learning. In this paper, we propose a novel dual-net architecture consisting of operator and selector for discovery of an optimal feature subset of a fixed size and ranking the importance of those features in the optimal subset simultaneously. During learning, the operator is trained for a supervised learning task via optimal feature subset candidates generated by the selector that learns predicting the learning performance of the operator working on different optimal subset candidates. We develop an alternate learning algorithm that trains two nets jointly and incorporates a stochastic local search procedure into learning to address the combinatorial optimization challenge. In deployment, the selector generates an optimal feature subset and ranks feature importance, while the operator makes predictions based on the optimal subset for test data. A thorough evaluation on synthetic, benchmark and real data sets suggests that our approach outperforms several state-of-the-art feature importance ranking and supervised feature selection methods. (Our source code is available: https://github.com/maksym33/FeatureImportanceDL)
研究动机与目标
- 解决深度学习中的总体特征重要性排序(FIR)问题。
- 开发一种双网络架构,其中算子网络借助来自选择器的子集候选进行学习。
- 通过改进的交替学习算法联合训练算子和选择器,结合随机局部搜索。
- 在保持良好预测性能的同时,对最优子集内的特征重要性进行排序。
- 证明该方法在多个数据集上优于最先进的FIR和有监督的特征选择方法。
提出的方法
- 引入一种双网络架构,其中算子网络用于有监督学习,选择器网络用于提出最优特征子集。
- 将FIR形式化为在固定大小的子集上最大化所有实例的平均算子性能。
- 将训练建模为使用两种损失:算子损失L_O作用于候选子集,选择器损失L_S从子集预测算子性能。
- 采用含探索与利用的交替学习过程来生成候选子集,包括随机局部搜索和基于梯度的排序。
- 在部署阶段,使用选择器识别最优子集,使用算子在该子集上对测试数据进行预测。
- 提供对合成数据、基准数据和真实数据集的评估,比较多种FIR和特征选择基线方法。
实验结果
研究问题
- RQ1当目标子集大小为固定值时,如何在深度学习中有效地执行FIR?
- RQ2双网络架构能否在保持预测性能的同时联合学习最优特征子集并对特征重要性进行排序?
- RQ3引入随机局部搜索是否能提升对组合特征子集空间的优化?
- RQ4在多样化数据集上,所提方法与最先进的FIR和有监督的特征选择方法相比如何?
主要发现
- 所提出的双网络方法在合成数据、基准数据和真实数据集上优于若干最先进的FIR和有监督的特征选择方法。
- 选择器学会在特征子集上预测算子性能,为寻找最优子集提供引导。
- 算子使用选择器生成的最优子集来完成预测任务,提升子集质量和模型性能。
- 实验证明在多个数据集上能够准确识别相关特征并给出有意义的FIR分数(梯度)。
- 该方法展示了对总体FIR及特征选择的适用性,并具有对大规模数据集的潜在扩展性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。