[论文解读] Diffusion models for missing value imputation in tabular data
TabCSDI 使用条件分数扩散来插补表格数据中的缺失值,具有三种分类处理方案;FT 嵌入在多类别数据上表现强劲,TabCSDI 在数值变量上实现了具有竞争力的 RMSE。
Missing value imputation in machine learning is the task of estimating the missing values in the dataset accurately using available information. In this task, several deep generative modeling methods have been proposed and demonstrated their usefulness, e.g., generative adversarial imputation networks. Recently, diffusion models have gained popularity because of their effectiveness in the generative modeling task in images, texts, audio, etc. To our knowledge, less attention has been paid to the investigation of the effectiveness of diffusion models for missing value imputation in tabular data. Based on recent development of diffusion models for time-series data imputation, we propose a diffusion model approach called "Conditional Score-based Diffusion Models for Tabular data" (TabCSDI). To effectively handle categorical variables and numerical variables simultaneously, we investigate three techniques: one-hot encoding, analog bits encoding, and feature tokenization. Experimental results on benchmark datasets demonstrated the effectiveness of TabCSDI compared with well-known existing methods, and also emphasized the importance of the categorical embedding techniques.
研究动机与目标
- 推动对表格数据缺失值的插补研究,并解决现有扩散模型在分类特征方面的局限性。
- 提出 TabCSDI,一种为具分类与数值特征的表格数据量身定制的条件分数扩散模型。
- 在混合变量和数值数据集上将 TabCSDI 与成熟方法进行比较,以展示具竞争力的性能。
提出的方法
- 采用一个基于扩散的插补框架,将输入分成观测的 (co) 与未观测的 (ta) 部分,以实现定向去噪。
- 通过移除时间组件并添加一个简单的残差变换器-MLP 主干,扩展 CSDI,使之适用于表格数据。
- 引入三种分类编码方案:one-hot 编码、analog bits 编码,以及 feature tokenizer 嵌入,以处理混合数据类型。
- 通过嵌入空间中的最近邻来恢复分类输出,通过嵌入级平均在扩散解码后恢复数值输出。
- 使用建模 p(x_t-1^ta | x_t^ta, x_0^co) 的条件分数扩散目标进行训练,以渐进地推断缺失值。
- 在七个数据集上进行实验,将 TabCSDI 与 Mean/Mode、MICE(linear 与 MissForest)以及 GAIN 进行比较。
实验结果
研究问题
- RQ1扩散基模型是否可以有效地适应混合数值和分类特征的表格数据缺失值插补?
- RQ2不同的分类嵌入策略(one-hot、analog bits、feature tokenizer)如何影响插补性能?
- RQ3TabCSDI 是否在混合变量与数值数据集上,与成熟方法相比提供具有竞争力的插补准确度(RMSE/Err)?
主要发现
| 方法 | 糖尿病 RMSE | 糖尿病 Err | COVID-19 RMSE | COVID-19 Err | 普查 RMSE | 普查 Err |
|---|---|---|---|---|---|---|
| Mean / Mode | 0.222 (0.003) | 0.260 (0.004) | 0.138 (0.002) | 0.144 (0.002) | 0.120 (0.003) | 0.424 (0.003) |
| MICE (linear) | 0.263 (0.002) | 0.270 (0.004) | 0.125 (0.003) | 0.300 (0.038) | 0.101 (0.002) | 0.530 (0.011) |
| MissForest | 0.216 (0.003) | 0.214 (0.001) | 0.120 (0.002) | 0.131 (0.002) | 0.112 (0.004) | 0.300 (0.014) |
| GAIN | 0.202 (0.003) | 0.282 (0.005) | 0.127 (0.002) | 0.217 (0.011) | 0.123 (0.057) | 0.412 (0.012) |
| TabCSDI/ one-hot | 0.197 (0.001) | 0.222 (0.005) | 0.122 (0.003) | 0.111 (0.012) | 0.099 (0.004) | 0.400 (0.033) |
| TabCSDI/ analog bits | 0.197 (0.001) | 0.222 (0.005) | 0.122 (0.003) | 0.111 (0.012) | 0.103 (0.004) | 0.376 (0.013) |
| TabCSDI/ FT | 0.206 (0.002) | 0.224 (0.004) | 0.123 (0.002) | 0.107 (0.002) | 0.098 (0.003) | 0.345 (0.002) |
- TabCSDI 的变体在混合变量数据集(Diabetes、COVID-19、Census)上实现了与 Mean/Mode、MICE、MissForest、GAiN 竞争的 RMSE。
- 在分类处理方案中,特征标记化(FT)在 Census 上通常获得更好的 Err,而 one-hot 与 analog bits 的 RMSE 相近。
- 对于数值变量,TabCSDI 在若干数据集上通常提供最佳 RMSE,凸显了基于扩散的迭代去噪在数值插补中的优势。
- FT 的优势在多类别变量的数据集上尤为明显,可能归因于嵌入的一致性和列不平衡的降低。
- 基于扩散的解码可以对目标值进行逐步细化,从而使 TabCSDI 相对于传统和深度生成基线具有竞争力。
- 该研究展示了分类嵌入设计在表格数据插补中的重要性,并提供证据表明 TabCSDI 可以训练到具竞争力的性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。