QUICK REVIEW

[论文解读] Distilling Knowledge from Deep Networks with Applications to Healthcare Domain

Zhengping Che, Sanjay Purushotham|arXiv (Cornell University)|Dec 11, 2015

Machine Learning in Healthcare参考文献 38被引用 112

一句话总结

本文提出可解释性模仿学习（Interpretable Mimic Learning），一种知识蒸馏框架，利用梯度提升树（Gradient Boosting Trees）从深度学习模型（如SDA、LSTM）中蒸馏预测性能，同时生成可解释的临床表型。该方法在真实世界电子健康记录（EHR）时间序列数据上实现了最先进或相当的性能，并生成了具有临床意义、经专家验证的决策规则。

ABSTRACT

Exponential growth in Electronic Healthcare Records (EHR) has resulted in new opportunities and urgent needs for discovery of meaningful data-driven representations and patterns of diseases in Computational Phenotyping research. Deep Learning models have shown superior performance for robust prediction in computational phenotyping tasks, but suffer from the issue of model interpretability which is crucial for clinicians involved in decision-making. In this paper, we introduce a novel knowledge-distillation approach called Interpretable Mimic Learning, to learn interpretable phenotype features for making robust prediction while mimicking the performance of deep learning models. Our framework uses Gradient Boosting Trees to learn interpretable features from deep learning models such as Stacked Denoising Autoencoder and Long Short-Term Memory. Exhaustive experiments on a real-world clinical time-series dataset show that our method obtains similar or better performance than the deep learning models, and it provides interpretable phenotypes for clinical decision making.

研究动机与目标

解决临床决策中对可解释机器学习模型的迫切需求，临床医生依赖透明的基于规则的解释。
克服深度学习模型在计算表型中固有的不可解释性，尽管其预测性能更优。
开发一种知识蒸馏框架，在保留深度神经网络预测准确性的同时，生成人类可读的特征和决策规则。
通过提供从复杂深度学习表征中衍生的可解释表型，使临床专家能够验证并信任模型输出。
探究使用深度网络提取的特征（而非仅软标签）是否能提升临床预测任务中的模仿性能。

提出的方法

通过训练梯度提升树（GBT）模型来模仿预训练深度学习模型（如堆叠去噪自编码器或LSTM）的软标签预测，应用知识蒸馏。
在GBT训练过程中，使用深度模型的输出概率（软目标）作为监督信号，以传递预测知识。
将软标签和深度学习特征（如SDA或LSTM编码器的输出）同时作为GBT的输入，以提升模仿性能。
利用GBT固有的可解释性，从训练后的树中提取决策规则和特征重要性评分，以供临床验证。
在多种配置下比较性能：GBT模仿DNN、SDA、LSTM及其与逻辑回归（LR）头的组合。
通过临床医生评估从GBT模型中提取的顶级特征和决策规则的临床相关性，验证模型的可解释性。

实验结果

研究问题

RQ1梯度提升树能否在保留可解释性的同时，有效模仿深度学习模型（如SDA、LSTM）在临床时间序列数据上的预测性能？
RQ2输入表示形式——仅使用软标签，或结合软标签与深度学习特征——哪种能带来更好的模仿性能？
RQ3GBT-based模仿模型所学习的可解释特征和决策规则是否与临床上相关的生理标志物一致？
RQ4GBT-based模仿模型的性能与原始深度模型及更简单的模型（如单棵决策树）相比如何？
RQ5临床专家能否验证由可解释性模仿学习框架生成的表型和决策规则的临床相关性？

主要发现

可解释性模仿学习框架在MOR和VFD预测任务上，性能与原始深度学习模型（SDA、LSTM）相当或更优。
GBT-based模仿模型优于基于单棵决策树的模仿方法（DTmimic-*），在MOR任务中AUC提升最高达0.0891，在VFD任务中提升最高达0.1152。
GBT模型中的顶级特征包括临床相关的时序变量，如$ ext{MAP-D1}$、$ ext{$oldsymbol{ ext{}}$}$和$ ext{PH-D1}$，在GBT-LR-LSTM模型中重要性评分最高达0.066。
PIM2和PRISM评分——已建立的临床风险评分——始终位列静态特征的前茅，验证了所学习表型的临床相关性。
GBT模仿模型生成的决策树与标准GBT的结构相似，表明规则学习具有一致性，且足够可解释以供专家验证。
与仅使用软标签的方法相比，额外引入深度学习特征（如来自SDA或LSTM的特征）显著提升了模仿性能，表现为AUC更高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。