Skip to main content
QUICK REVIEW

[논문 리뷰] Tide: A Customisable Dataset Generator for Anti-Money Laundering Research

Montijn van den Beukel, Jože Martin Rožanec|arXiv (Cornell University)|2026. 03. 02.
Crime, Illicit Activities, and Governance인용 수 0
한 줄 요약

Tide는 구성 가능 그래프 기반 금융 네트워크를 생성하는 오픈 소스 합성 데이터 생성기로, 구조적 및 시간적 자금세탁 패턴과 AML 벤치마킹을 위한 참조 데이터셋 및 기본 모델을 제공합니다.

ABSTRACT

The lack of accessible transactional data significantly hinders machine learning research for Anti-Money Laundering (AML). Privacy and legal concerns prevent the sharing of real financial data, while existing synthetic generators focus on simplistic structural patterns and neglect the temporal dynamics (timing and frequency) that characterise sophisticated laundering schemes. We present Tide, an open-source synthetic dataset generator that produces graph-based financial networks incorporating money laundering patterns defined by both structural and temporal characteristics. Tide enables reproducible, customisable dataset generation tailored to specific research needs. We release two reference datasets with varying illicit ratios (LI: 0.10\%, HI: 0.19\%), alongside the implementation of state-of-the-art detection models. Evaluation across these datasets reveals condition-dependent model rankings: LightGBM achieves the highest PR-AUC (78.05) in the low illicit ratio condition, while XGBoost performs best (85.12) at higher fraud prevalence. These divergent rankings demonstrate that the reference datasets can meaningfully differentiate model capabilities across operational conditions. Tide provides the research community with a configurable benchmark that exposes meaningful performance variation across model architectures, advancing the development of robust AML detection methods.

연구 동기 및 목표

  • Accessible AML 데이터를 촉진하기 위한 재현 가능하고 구성 가능한 합성 데이터 세트를 제공하여 구조적 및 시간적 세탁 패턴을 포착합니다.
  • 다양한 위법 비율과 운용 조건에서 탐지 모델의 벤치마크를 가능하게 합니다.
  • 사전에 정의된 세탁 유형의 라이브러리와 함께 사용자 정의 패턴 주입 기능을 제공합니다.
  • 생성된 데이터를 검증하고 견고한 벤치마크를 확립하기 위한 기본 AML 탐지 모델을 제공합니다.

제안 방법

  • 금융 네트워크를 네 가지 엔티티 유형(개인, 기업, 계좌, 기관)으로 구성된 방향성 이질 그래프로 모델링합니다.
  • 세척 패턴을 P=(S,T) 패턴 쌍으로 표현하며, 구조 구성요소 S는 엔티티를 선택하고 시간 구성요소 T는 트랜잭션 시퀀스를 정의합니다.
  • 엔티티 생성, 클러스터링, 패턴 주입 및 패턴 집계를 포함하는 생성 파이프라인을 사용하여 합법적 배경 그래프에 패턴을 주입합니다.
  • PR-AUC를 최적화하고 실질적인 도전을 달성할 때까지 시간적/토폴로지적 제약을 조정하여 데이터 세트의 난이도를 적대적으로 보정합니다.
  • Youden의 J 지표를 사용하여 임계값을 설정하고 F1, 정밀도, 재현율 및 PR-AUC를 보고합니다.
  • LI=0.10%, HI=0.19%의 위반 비율을 가진 참조 데이터세트를 제공하고 벤치마킹을 위한 최신 기준선을 구현합니다.
(a)
(a)

실험 결과

연구 질문

  • RQ1 Tide가 복잡한 네트워크 내에서 현실적이고 시간적으로 진화하는 자금세탁 패턴을 인코딩한 합성 AML 데이터셋을 생성할 수 있는가?
  • RQ2다양한 ML 모델 계열(LightGBM, XGBoost 등)이 다양한 위법 비율에서 자금세탁 탐지에서 어떻게 순위를 매기는가?
  • RQ3사전 로드된 유형과 사용자 정의 패턴 주입이 운용 조건 전반에 걸쳐 강건한 벤치마킹을 가능하게 하는가?
  • RQ4시간적 역동성 및 레이어링이 합성 AML 그래프의 탐지 성능에 어떤 영향을 미치는가?

주요 결과

  • 두 개의 참조 데이터 세트(LI=0.10%, HI=0.19%)가 낮은 및 높은 사기 유병률에서 벤치마킹을 가능하게 한다.
  • 저위반 비율 조건에서 LightGBM이 가장 높은 PR-AUC(78.05)를 달성한다.
  • 높은 사기 유병률에서 XGBoost가 가장 잘 수행한다(85.12).
  • 운영 조건에 따라 모델 순위가 달라져 아키텍처 간 의미 있는 성능 차이를 보여준다.
  • Tide는 대규모 네트워크 생성에서 확장성과 효율성을 입증한다.
  • 데이터세트와 기본 모델은 재현성과 비교 가능한 AML 연구를 지원한다.
(b)
(b)

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.