QUICK REVIEW

[論文レビュー] EmDT: Embedding Diffusion Transformer for Tabular Data Generation in Fraud Detection

En-Ya Kuo, Sebastien Motsch|arXiv (Cornell University)|Mar 13, 2026

Imbalanced Data Classification Techniques被引用数 0

ひとこと要約

EmDTはクラスタ Guided diffusionとTransformerデノイザー、正弦波埋め込みを用いて現実的な不正 tabularサンプルを生成し、下流のXGBoost性能を向上させつつプライバシーを維持します。

ABSTRACT

Imbalanced datasets pose a difficulty in fraud detection, as classifiers are often biased toward the majority class and perform poorly on rare fraudulent transactions. Synthetic data generation is therefore commonly used to mitigate this problem. In this work, we propose the Clustered Embedding Diffusion-Transformer (EmDT), a diffusion model designed to generate fraudulent samples. Our key innovation is to leverage UMAP clustering to identify distinct fraudulent patterns, and train a Transformer denoising network with sinusoidal positional embeddings to capture feature relationships throughout the diffusion process. Once the synthetic data has been generated, we employ a standard decision-tree-based classifier (e.g., XGBoost) for classification, as this type of model remains better suited to tabular datasets. Experiments on a credit card fraud detection dataset demonstrate that EmDT significantly improves downstream classification performance compared to existing oversampling and generative methods, while maintaining comparable privacy protection and preserving feature correlations present in the original data.

研究の動機と目的

不正検出の深刻なクラス不均衡を、現実的な合成データでマイノリティサンプルを増強して対処する。
UMAPクラスタリングを活用して異なる不正パターンを特定し、クラスタ固有の拡散モデルを訓練する。
正弦波埋め込みを用いたTransformerベースのデノイジングネットワークにより、表形式データの複雑な特徴依存を捉える。
増強データを用いた下流の不正分類性能の改善を示す。
生成データのプライバシリスクと特徴相関の保持を評価する。

提案手法

マイノリティ不正サンプルにUMAPを適用して不正パターンのクラスタを識別する。
各不正クラスタごとにTransformerベースのデノイザーと正弦位置埋め込みを用いた別個の拡散モデルを訓練する。
特徴とタイムステップを潜在空間へ写像する非学習型の正弦埋め込みPhiを用いる。
Transformerデノイジングネットワークでガウスノイズを予測し、元の特徴空間への線形射影を行う。
各クラスタごとに合成不正サンプルを生成し、実データと組み合わせて下流のXGBoost分類を実行する。
Optunaでハイパーパラメータを調整し、F1、リコール、精度、Bal-Acc、プライバシー(DCR)で評価する。

実験結果

リサーチクエスチョン

RQ1クラスタ単位の拡散モデルは単一グローバルモデルより多峰性の不正パターンをよりよく捉えられるか。
RQ2正弦埋め込みとTransformerデノイザは合成表形式不正データの忠実度を向上させるか。
RQ3EmDTの増強はプライバシー保護を維持しつつ下流の不正分類指標を改善するか。
RQ4Imbalancedクレジットカード不正データに対してEmDTはSMOTE、CTGAN、TVAE、TabDDPMとどう比べるか。
RQ5クラスタ訓練と全データ訓練の予測性能への影響はどうか。

主な発見

方法	F1-スコア	リコール	精度	Bal-Acc	DCR
Original	0.800 Ϟ 0.035	0.743 Ϟ 0.041	0.868 Ϟ 0.039	0.871 Ϟ 0.020	-
SMOTE	0.834 Ϟ 0.025	0.784 Ϟ 0.031	0.891 Ϟ 0.031	0.892 Ϟ 0.016	0.686 Ϟ 0.01
CTGAN	0.805 Ϟ 0.033	0.751 Ϟ 0.042	0.873 Ϟ 0.074	0.875 Ϟ 0.021	0.526 Ϟ 0.06
TVAE	0.820 Ϟ 0.010	0.778 Ϟ 0.019	0.869 Ϟ 0.035	0.889 Ϟ 0.009	0.528 Ϟ 0.07
TabDDPM	0.816 Ϟ 0.019	0.767 Ϟ 0.032	0.873 Ϟ 0.036	0.884 Ϟ 0.016	0.578 Ϟ 0.04
EmDT (ours)	0.849 Ϟ 0.021	0.791 Ϟ 0.025	0.916 Ϟ 0.025	0.895 Ϟ 0.012	0.555 Ϟ 0.06

EmDTは比較手法の中で最高のF1スコア、リコール、精度、Bal-Accを達成。
EmDTは他の生成モデルと同等かそれ以上のDCRプライバシースコアと下流性能を示す。
クラスタ訓練型EmDTは非クラスタリング型と比較して分類指標で優れる。
EmDT由来の合成データはCTGAN、TVAE、TabDDPMより特徴相関をより良く保持する。
アブレーションによりクラスタ訓練はクラスタリングなしの全不正データ使用より追加の利得をもたらす。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。