[论文解读] Tide: A Customisable Dataset Generator for Anti-Money Laundering Research
tide 是一个开源的合成数据生成器,创建可配置的基于图的金融网络,具有结构化和时间性洗钱模式,以及用于 AML 基准测试的参考数据集和基线模型。
The lack of accessible transactional data significantly hinders machine learning research for Anti-Money Laundering (AML). Privacy and legal concerns prevent the sharing of real financial data, while existing synthetic generators focus on simplistic structural patterns and neglect the temporal dynamics (timing and frequency) that characterise sophisticated laundering schemes. We present Tide, an open-source synthetic dataset generator that produces graph-based financial networks incorporating money laundering patterns defined by both structural and temporal characteristics. Tide enables reproducible, customisable dataset generation tailored to specific research needs. We release two reference datasets with varying illicit ratios (LI: 0.10\%, HI: 0.19\%), alongside the implementation of state-of-the-art detection models. Evaluation across these datasets reveals condition-dependent model rankings: LightGBM achieves the highest PR-AUC (78.05) in the low illicit ratio condition, while XGBoost performs best (85.12) at higher fraud prevalence. These divergent rankings demonstrate that the reference datasets can meaningfully differentiate model capabilities across operational conditions. Tide provides the research community with a configurable benchmark that exposes meaningful performance variation across model architectures, advancing the development of robust AML detection methods.
研究动机与目标
- 通过提供可重复、可配置的合成数据集来解决获取可访问的 AML 数据的不足,能够捕捉结构化和时间性洗钱模式。
- 实现对不同非法比例和运营条件下的检测模型基准测试。
- 提供预定义洗钱类型库,并具备注入用户自定义模式的能力。
- 提供基线 AML 检测模型以验证生成的数据并建立稳健的基准。
提出的方法
- 将金融网络建模为具有四种实体类型(个人、企业、账户、机构)的有向异构图。
- 将洗钱模式表示为模式元组 P=(S,T),其中结构分量 S 选择实体,时间分量 T 定义交易序列。
- 使用包含实体创建、聚类、模式注入和模式聚合的生成管线,将模式注入合法背景图。
- 通过对检测模型性能(PR-AUC)进行对抗性优化并调整时间/拓扑约束,逐步校准数据集的难度,直到达到现实挑战性。
- 使用 Youden 指标来设定阈值评估检测模型,报告 F1、Precision、Recall 和 PR-AUC。
- 提供参考数据集,非法比例 LI=0.10% 和 HI=0.19%,并实现最先进的基线用于基准测试。

实验结果
研究问题
- RQ1 Tide 是否能够在复杂网络中编码现实且随时间演变的洗钱模式,从而生成合成 AML 数据集?
- RQ2在不同非法比例下,不同的 ML 模型家族(如 LightGBM、XGBoost)在检测洗钱方面的排名如何?
- RQ3预加载的类型学加上自定义模式注入,是否能够在各种运营条件下实现鲁棒的基准测试?
- RQ4时间动态性和分层对合成 AML 图的检测性能有何影响?
主要发现
- 两个参考数据集(LI=0.10%、HI=0.19%)实现对低高欺诈流行度的基准测试。
- 在低非法比例条件下,LightGBM 获得最高的 PR-AUC(78.05)。
- 在较高欺诈盛行度时,XGBoost 的表现最佳(85.12)。
- 模型在不同运营条件下的排名有所不同,体现了架构间显著的性能差异。
- Tide 在生成大规模网络方面具有可扩展性和高效性。
- 这些数据集和基线模型有助于可重复性与对比性 AML 研究。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。