Skip to main content
QUICK REVIEW

[论文解读] Anti-Money Laundering in Bitcoin: Experimenting with Graph Convolutional Networks for Financial Forensics

Mark Weber, Giacomo Domeniconi|arXiv (Cornell University)|Jul 31, 2019
Crime, Illicit Activities, and Governance被引用 167
一句话总结

这篇论文介绍了 Elliptic Data Set,一个大型标注的 Bitcoin 交易图,并评估传统 ML 方法和 Graph Convolutional Networks (GCNs) 用于非法交易检测,强调 RF 的强大表现以及图方法在加密货币领域的 AML 潜力。

ABSTRACT

Anti-money laundering (AML) regulations play a critical role in safeguarding financial systems, but bear high costs for institutions and drive financial exclusion for those on the socioeconomic and international margins. The advent of cryptocurrency has introduced an intriguing paradox: pseudonymity allows criminals to hide in plain sight, but open data gives more power to investigators and enables the crowdsourcing of forensic analysis. Meanwhile advances in learning algorithms show great promise for the AML toolkit. In this workshop tutorial, we motivate the opportunity to reconcile the cause of safety with that of financial inclusion. We contribute the Elliptic Data Set, a time series graph of over 200K Bitcoin transactions (nodes), 234K directed payment flows (edges), and 166 node features, including ones based on non-public data; to our knowledge, this is the largest labelled transaction data set publicly available in any cryptocurrency. We share results from a binary classification task predicting illicit transactions using variations of Logistic Regression (LR), Random Forest (RF), Multilayer Perceptrons (MLP), and Graph Convolutional Networks (GCN), with GCN being of special interest as an emergent new method for capturing relational information. The results show the superiority of Random Forest (RF), but also invite algorithmic work to combine the respective powers of RF and graph methods. Lastly, we consider visualization for analysis and explainability, which is difficult given the size and dynamism of real-world transaction graphs, and we offer a simple prototype capable of navigating the graph and observing model performance on illicit activity over time. With this tutorial and data set, we hope to a) invite feedback in support of our ongoing inquiry, and b) inspire others to work on this societally important challenge.

研究动机与目标

  • 在加密货币环境中推动反洗钱安全性与金融包容性之间的平衡。
  • 提供一个大型、公开可用的标注 Bitcoin 交易数据集供 AML 研究使用。
  • 评估传统 ML 基线方法和基于图的方法在比特币数据中检测违法交易的效果。
  • 讨论可视化和可解释性工具,以帮助金融取证分析师。

提出的方法

  • 构建一个带时间戳的有向比特币交易图,其中节点为交易,边为 BTC 流向。
  • 根据发起实体的类别和公开数据,将节点标注为非法的 或 合法的。
  • 将每个节点表示为166 个特征(本地特征和一跳聚合特征)。
  • 使用 94 个本地特征以及可选的完整 166 个特征,应用经典 ML 模型(Logistic Regression、Random Forest、MLP)。
  • 应用 Graph Convolutional Networks (GCN) 以利用图结构,采用 2 层架构以及一个跳跃变体(Skip-GCN)。
  • 使用 EvolveGCN 探索随时间步的动态建模,以捕捉时间维度的变化。

实验结果

研究问题

  • RQ1图结构能否在 Elliptic Data Set 上超越基于特征的模型来改善非法交易检测?
  • RQ2在类别不平衡的条件下,基于 GCN 的方法在准确率、召回率和 F1 值等指标上与传统 ML 方法相比如何?
  • RQ3用图嵌入增强节点特征对分类性能有何影响?
  • RQ4在该数据集上,时间建模(EvolveGCN)是否相较静态 GCN 提供了有意义的优势?

主要发现

  • 在表1中,使用所有特征(AF)的 Random Forest 在基线模型中取得最高性能。
  • GCN 和 Skip-GCN 的表现优于 Logistic Regression,展示了图信息在本数据的 AML 中的价值。
  • 使用所有特征(AF)或本地特征(LF)结合图嵌入可以提升性能,表明图信息有助于表征。
  • 时间模型 EvolveGCN 始终优于非时间的 GCN,在非法检测方面的提升依赖于具体情境。
  • 图驱动的可视化原型(Chronograph)支持对非法模式随时间的可解释性与分析。
  • 该数据集包含 203,769 个节点和 234,355 条边,标注为 2% 的非法节点和 21% 的合法节点,凸显类别不平衡和可扩展性考虑。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。