[论文解读] Realistic Synthetic Financial Transactions for Anti-Money Laundering Models
本文提出 AMLworld,一个多智能体合成数据生成器,用于创建现实、完全带标签的 AML 数据集,并基于此对 ML 模型(GNNs 和 GBTs)进行洗钱检测基准测试,支持跨银行评估和带有真实洗钱标签的迁移学习。
With the widespread digitization of finance and the increasing popularity of cryptocurrencies, the sophistication of fraud schemes devised by cybercriminals is growing. Money laundering -- the movement of illicit funds to conceal their origins -- can cross bank and national boundaries, producing complex transaction patterns. The UN estimates 2-5\% of global GDP or \$0.8 - \$2.0 trillion dollars are laundered globally each year. Unfortunately, real data to train machine learning models to detect laundering is generally not available, and previous synthetic data generators have had significant shortcomings. A realistic, standardized, publicly-available benchmark is needed for comparing models and for the advancement of the area. To this end, this paper contributes a synthetic financial transaction dataset generator and a set of synthetically generated AML (Anti-Money Laundering) datasets. We have calibrated this agent-based generator to match real transactions as closely as possible and made the datasets public. We describe the generator in detail and demonstrate how the datasets generated can help compare different machine learning models in terms of their AML abilities. In a key way, using synthetic data in these comparisons can be even better than using real data: the ground truth labels are complete, whilst many laundering transactions in real data are never detected.
研究动机与目标
- 提出现实、公开可用的 AML 数据集的必要性,原因是真实数据在隐私和标注方面的局限。
- 提出 AMLworld——一个基于代理的虚拟世界,用于生成具有现实模式和循环的带标签洗钱交易。
- 提供公开可用的不同规模和洗钱率的 AML 数据集以进行模型基准测试。
- 在合成数据集上展示基线 ML 模型的性能(GNNs 和 GBTs)。
- 讨论伦理考量以及联邦学习和隐私保护建模的潜力。
提出的方法
- 开发 AMLworld——一个多智能体虚拟世界,模拟拥有合法与非法资金的银行、个人和公司。
- 建模完整的洗钱循环(放置 Placement、分层 Layering、整合 Integration),并为所有洗钱交易贴上完美的地面真实标签。
- 将交易表示为动态金融交易图,以捕捉复杂模式和主题(例如循环、扇出/扇入、聚散、两分结构)。
- 跨币种生成数十亿笔交易,并公开提供带标签的数据集(HI/LI 组;小/中/大规模)。
- 在表格数据上评估 ML 模型(使用 LightGBM/XGBoost 搭配 Graph Feature Preprocessor)以及基于图的 GNN(GIN、GIN+EU、PNA),采用60-20-20 的时间划分;由于样本不平衡,强调少数类 F1。
实验结果
研究问题
- RQ1现实的合成 AML 数据集是否能在不同规模和洗钱率条件下实现对 AML 模型的稳健基准测试与公平比较?
- RQ2基于图的与传统表格型 ML 模型在合成 AML 数据上的表现如何,迁移学习或预训练是否能在不同数据集之间提升性能?
- RQ3跨银行数据共享和差分隐私对 AML 模型有效性的影响如何?
- RQ4合成数据是否能揭示在真实数据中难以察觉的复杂洗钱模式?
主要发现
- GNNs 和 GBTs 能在 AMLworld 数据集中有效识别洗钱交易。
- PNA 和 GIN+EU 架构提升 GNN 性能;GFP 特征结合 LightGBM/XGBoost 也能获得强劲结果。
- LI 数据集(较低洗钱率)更具挑战性;在 HI 数据上预训练的模型可提升 LI 性能;对 HI 模型进行微调可帮助 LI 数据。
- 跨银行数据共享与图特征共享显著提升 F1 分数,表明隐私保护的协作具有潜在收益。
- 合成数据为洗钱提供完整的地面真实标签,使基准测试比真实数据更可靠。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。