QUICK REVIEW

[논문 리뷰] EmDT: Embedding Diffusion Transformer for Tabular Data Generation in Fraud Detection

En-Ya Kuo, Sebastien Motsch|arXiv (Cornell University)|2026. 03. 13.

Imbalanced Data Classification Techniques인용 수 0

한 줄 요약

EmDT는 클러스터 유도 확산을 사용하고 Transformer 디노이저와 사인형 임베딩으로 현실적인 위조 표형 샘플을 생성하여 다운스트림 XGBoost 성능을 향상시키고 프라이버시를 유지합니다.

ABSTRACT

Imbalanced datasets pose a difficulty in fraud detection, as classifiers are often biased toward the majority class and perform poorly on rare fraudulent transactions. Synthetic data generation is therefore commonly used to mitigate this problem. In this work, we propose the Clustered Embedding Diffusion-Transformer (EmDT), a diffusion model designed to generate fraudulent samples. Our key innovation is to leverage UMAP clustering to identify distinct fraudulent patterns, and train a Transformer denoising network with sinusoidal positional embeddings to capture feature relationships throughout the diffusion process. Once the synthetic data has been generated, we employ a standard decision-tree-based classifier (e.g., XGBoost) for classification, as this type of model remains better suited to tabular datasets. Experiments on a credit card fraud detection dataset demonstrate that EmDT significantly improves downstream classification performance compared to existing oversampling and generative methods, while maintaining comparable privacy protection and preserving feature correlations present in the original data.

연구 동기 및 목표

희소 클래스 비율이 큰 사기 탐지에서 소수 샘플을 현실적인 합성 데이터로 보강하여 불균형 문제를 해결한다.
UMAP 클러스터링을 활용해 서로 다른 사기 패턴을 식별하고 클러스터별 확산 모델을 훈련한다.
사기 표형 데이터의 복잡한 특징 의존성을 사인형 임베딩을 가진 Transformer 기반 디노이징 네트워크로 포착한다.
보강된 데이터를 이용한 다운스트림 사기 분류 성능을 개선함을 입증한다.
생성 데이터의 프라이버시 위험성과 특징 상관관계 보존 여부를 평가한다.

제안 방법

소수 사기 샘플에 UMAP을 적용해 사기 패턴의 클러스터를 식별한다.
사인형 위치 임베딩을 갖춘 Transformer 기반 디노이저를 사용해 각 사기 클러스터마다 별도의 확산 모델을 훈련한다.
특징과 시점들을 잠재 공간에 매핑하기 위해 비학습 가능한 사인형 임베딩 Phi를 사용한다.
Transformer 디노이징 네트워크로 가우시안 노이즈를 예측한 뒤 원래 특징 공간으로의 선형 투영을 수행한다.
클러스터별로 합성 사기 샘플을 생성하고 이를 실제 데이터와 결합해 다운스트림 XGBoost 분류를 수행한다.
Optuna로 하이퍼파라미터를 튜닝하고 F1, 재현율, 정밀도, Bal-Acc, 프라이버시(DCR)를 평가한다.

실험 결과

연구 질문

RQ1클러스터별 확산 모델이 단일 글로벌 모델보다 다모드 사기 패턴을 더 잘 포착할 수 있는가?
RQ2사인형 임베딩과 Transformer 디노이저가 합성 표형 사기 데이터의 충실도를 향상시키는가?
RQ3EmDT 보강이 프라이버시 보호를 유지하면서 다운스트림 사기 분류 지표를 개선하는가?
RQ4불균형한 신용카드 사기 데이터에서 SMOTE, CTGAN, TVAE, TabDDPM과 비교했을 때 EmDT의 성능은 어떤가?
RQ5클러스터 학습 대 전체 세트 학습의 예측 성능에 미치는 영향은 무엇인가?

주요 결과

방법	F1-점수	재현율	정밀도	Bal-Acc	DCR
Original	0.800 0.035	0.743 0.041	0.868 0.039	0.871 0.020	-
SMOTE	0.834 0.025	0.784 0.031	0.891 0.031	0.892 0.016	0.686 0.01
CTGAN	0.805 0.033	0.751 0.042	0.873 0.074	0.875 0.021	0.526 0.06
TVAE	0.820 0.010	0.778 0.019	0.869 0.035	0.889 0.009	0.528 0.07
TabDDPM	0.816 0.019	0.767 0.032	0.873 0.036	0.884 0.016	0.578 0.04
EmDT (ours)	0.849 0.021	0.791 0.025	0.916 0.025	0.895 0.012	0.555 0.06

EmDT가 비교 방법들 중에서 가장 높은 F1-점수, 재현율, 정밀도, Bal-Acc를 달성한다.
EmDT가 다른 생성 모델과 유사한 프라이버시 점수(DCR)를 보이며 다운스트림 성능이 더 좋다.
클러스터 학습된 EmDT가 비클러스터형 변종보다 분류 지표에서 더 높은 성능을 보인다.
EmDT의 합성 데이터가 CTGAN, TVAE, TabDDPM보다 특징 상관관계를 더 잘 보존한다.
애블레이션 분석 결과 클러스터 학습이 클러스터링 없이 전체 사기 세트를 사용하는 경우보다 추가 이득을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.