[论文解读] EmDT: Embedding Diffusion Transformer for Tabular Data Generation in Fraud Detection
EmDT 使用聚类引导扩散与 Transformer 去噪器和正弦嵌入来生成真实的欺诈性表格样本,在提升下游 XGBoost 性能的同时保护隐私。
Imbalanced datasets pose a difficulty in fraud detection, as classifiers are often biased toward the majority class and perform poorly on rare fraudulent transactions. Synthetic data generation is therefore commonly used to mitigate this problem. In this work, we propose the Clustered Embedding Diffusion-Transformer (EmDT), a diffusion model designed to generate fraudulent samples. Our key innovation is to leverage UMAP clustering to identify distinct fraudulent patterns, and train a Transformer denoising network with sinusoidal positional embeddings to capture feature relationships throughout the diffusion process. Once the synthetic data has been generated, we employ a standard decision-tree-based classifier (e.g., XGBoost) for classification, as this type of model remains better suited to tabular datasets. Experiments on a credit card fraud detection dataset demonstrate that EmDT significantly improves downstream classification performance compared to existing oversampling and generative methods, while maintaining comparable privacy protection and preserving feature correlations present in the original data.
研究动机与目标
- 通过用现实的合成数据增强少数类样本来解决欺诈检测中的严重类别不平衡。
- 利用 UMAP 聚类识别不同的欺诈模式并训练针对聚类的扩散模型。
- 通过基于 Transformer 的去噪网络和正弦嵌入捕捉表格数据中的复杂特征依赖。
- 展示使用增强数据后下游欺诈分类性能的提升。
- 评估生成数据的隐私风险与特征相关性保留情况。
提出的方法
- 对少数欺诈样本应用 UMAP 以识别欺诈模式的聚类。
- 为每个欺诈聚类训练一个单独的扩散模型,使用带有正弦位置嵌入的 Transformer 去噪器。
- 使用不可训练的正弦嵌入 Phi 将特征和时间步映射到潜在空间。
- 用 Transformer 去噪网络预测高斯噪声,然后线性投影回原始特征空间。
- 按聚类生成合成欺诈样本,并与真实数据结合用于下游的 XGBoost 分类。
- 用 Optuna 调优超参数,并使用 F1、召回、精确度、Bal-Acc 及隐私(DCR)进行评估。
实验结果
研究问题
- RQ1聚类训练的扩散模型是否比单一全局模型更能捕捉多峰的欺诈模式?
- RQ2正弦嵌入与 Transformer 去噪器是否提高了合成表格欺诈数据的保真度?
- RQ3EmDT 增强是否在保持隐私保护的同时改善下游欺诈分类器指标?
- RQ4在不平衡的信用卡欺诈数据上,EmDT 与 SMOTE、CTGAN、TVAE 及 TabDDPM 的比较如何?
- RQ5聚类训练与全集合训练对预测性能的影响如何?
主要发现
| Method | F1-Score | Recall | Precision | Bal-Acc | DCR |
|---|---|---|---|---|---|
| Original | 0.800 0.035 | 0.743 0.041 | 0.868 0.039 | 0.871 0.020 | - |
| SMOTE | 0.834 0.025 | 0.784 0.031 | 0.891 0.031 | 0.892 0.016 | 0.686 0.01 |
| CTGAN | 0.805 0.033 | 0.751 0.042 | 0.873 0.074 | 0.875 0.021 | 0.526 0.06 |
| TVAE | 0.820 0.010 | 0.778 0.019 | 0.869 0.035 | 0.889 0.009 | 0.528 0.07 |
| TabDDPM | 0.816 0.019 | 0.767 0.032 | 0.873 0.036 | 0.884 0.016 | 0.578 0.04 |
| EmDT (ours) | 0.849 0.021 | 0.791 0.025 | 0.916 0.025 | 0.895 0.012 | 0.555 0.06 |
- EmDT 在比较方法中取得了最高的 F1-分数、召回、精确度和 Bal-Acc。
- EmDT 的隐私得分 DCR 与其他生成模型相当,并且下游表现更优。
- 基于聚类训练的 EmDT 在分类指标上优于非聚类变体。
- 来自 EmDT 的合成数据比 CTGAN、TVAE 和 TabDDPM 更好地保留特征相关性。
- 消融研究显示聚类训练相对于使用未聚类的完整欺诈集合可带来额外提升。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。