[论文解读] Dropout Feature Ranking for Deep Learning Models
本文提出了一种名为Dropout特征排序(Dropout FR)的新方法,通过在深度神经网络的输入层应用变分Dropout来对特征重要性进行排序。通过优化每个特征的Dropout率,该方法在多种数据集上的特征选择与可解释性方面均表现出色,优于经典方法和深度学习基线模型,尤其在药物反应预测中识别出具有生物学意义的特征方面表现突出。
Deep neural networks (DNNs) achieve state-of-the-art results in a variety of domains. Unfortunately, DNNs are notorious for their non-interpretability, and thus limit their applicability in hypothesis-driven domains such as biology and healthcare. Moreover, in the resource-constraint setting, it is critical to design tests relying on fewer more informative features leading to high accuracy performance within reasonable budget. We aim to close this gap by proposing a new general feature ranking method for deep learning. We show that our simple yet effective method performs on par or compares favorably to eight strawman, classical and deep-learning feature ranking methods in two simulations and five very different datasets on tasks ranging from classification to regression, in both static and time series scenarios. We also illustrate the use of our method on a drug response dataset and show that it identifies genes relevant to the drug-response.
研究动机与目标
- 为解决深度神经网络(DNNs)在生物学和医疗等假设驱动领域中可解释性不足的问题。
- 开发一种适用于多种深度学习架构(包括前馈网络与循环网络)的通用型特征排序方法。
- 在资源受限条件下识别最具信息量的特征,从而实现最小化数据采集量的高效实验设计。
- 在捕捉非线性交互作用与相关特征方面,超越现有方法如LASSO、ElasticNet和随机森林。
- 在真实世界生物与临床数据集(包括药物反应预测)上展示该方法的有效性。
提出的方法
- 将变分Dropout应用于深度神经网络的输入层,将每个输入特征视为具有可学习的Dropout率。
- 在训练过程中优化特征级Dropout率以评估特征重要性,Dropout率越高表示特征相关性越低。
- 在前向传播过程中使用随机掩码处理输入特征,模拟特征袋装(feature bagging),提升对特征相关性的鲁棒性。
- 将该方法集成到多种深度学习架构中,包括全连接网络、RNNs以及变分自编码器(VAEs)。
- 根据学习到的Dropout率对特征进行排序,其中重要性较低的特征被更频繁地丢弃。
- 采用Dropout的贝叶斯解释,以在特征重要性学习过程中实现不确定性估计与正则化。
实验结果
研究问题
- RQ1将变分Dropout应用于输入层是否能有效对深度学习模型中的特征进行排序,尤其是在存在非线性交互作用与相关特征的情况下?
- RQ2与经典方法(如LASSO、ElasticNet)及基于深度学习的基线方法(如Deep FS)相比,Dropout FR在特征选择性能上表现如何?
- RQ3该方法是否能在不同深度学习架构(包括前馈网络、RNNs及半监督模型如VAEs)上实现良好泛化?
- RQ4该方法能否在真实世界数据集中识别出具有生物学意义的特征,例如与药物反应相关的基因?
- RQ5在低数据量场景或资源受限条件下,当选择最少数量的有信息量特征至关重要时,该方法表现如何?
主要发现
- 在MiniBooNE数据集上,Dropout FR在前5个特征的排序中优于所有基线方法,且在AUPR与AUROC指标上均取得统计显著提升;在YearPredictionMSD数据集上,对前20个特征的排序也表现最优。
- 在PhysioNet时间序列数据集上,即使仅使用单个最重要的特征,Dropout FR的表现仍优于随机森林,凸显其在识别最具预测力单个特征方面的优越性。
- 在使用VAE进行药物反应预测的任务中,Dropout FR成功识别出已知具有生物学意义的基因(如FOSL1和TRAM2),且具有极强的统计显著性(p < 1e-7)。
- 在基于RNN的PhysioNet模型上,该方法实现了AUPR为0.448 ± 0.063、AUROC为0.808 ± 0.026,优于该设置下所有其他方法。
- 与LASSO和Deep FS不同,Dropout FR对特征相关性具有鲁棒性,不会仅从相关特征组中选择一个。
- 在模拟研究中,Dropout FR正确捕捉到了关键特征之间的二阶交互作用,而Marginal ranking与LASSO等方法则未能准确对交互特征进行排序。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。