Skip to main content
QUICK REVIEW

[論文レビュー] Tide: A Customisable Dataset Generator for Anti-Money Laundering Research

Montijn van den Beukel, Jože Martin Rožanec|arXiv (Cornell University)|Mar 2, 2026
Crime, Illicit Activities, and Governance被引用数 0
ひとこと要約

tide は、構造的および時系列のマネーロンダリングパターンを備えた構成可能なグラフベースの金融ネットワークを生成するオープンソースの合成データ生成器で、AMLベンチマーキングのための参照データセットとベースラインモデルを提供します。

ABSTRACT

The lack of accessible transactional data significantly hinders machine learning research for Anti-Money Laundering (AML). Privacy and legal concerns prevent the sharing of real financial data, while existing synthetic generators focus on simplistic structural patterns and neglect the temporal dynamics (timing and frequency) that characterise sophisticated laundering schemes. We present Tide, an open-source synthetic dataset generator that produces graph-based financial networks incorporating money laundering patterns defined by both structural and temporal characteristics. Tide enables reproducible, customisable dataset generation tailored to specific research needs. We release two reference datasets with varying illicit ratios (LI: 0.10\%, HI: 0.19\%), alongside the implementation of state-of-the-art detection models. Evaluation across these datasets reveals condition-dependent model rankings: LightGBM achieves the highest PR-AUC (78.05) in the low illicit ratio condition, while XGBoost performs best (85.12) at higher fraud prevalence. These divergent rankings demonstrate that the reference datasets can meaningfully differentiate model capabilities across operational conditions. Tide provides the research community with a configurable benchmark that exposes meaningful performance variation across model architectures, advancing the development of robust AML detection methods.

研究の動機と目的

  • Accessible AML データの欠如を解消するため、構造的および時系列のマネーロンダリングパターンを再現可能で構成可能な合成データセットとして提供する。
  • 検知モデルのベンチマークを、さまざまな違法成分割合と運用条件の下で可能にする。
  • 事前定義のマネーロンダリング類型のライブラリと、ユーザー定義パターンの注入機能を提供する。
  • 生成データを検証し、堅牢なベンチマークを確立するための基準 AML 検出モデルを提供する。

提案手法

  • 金融ネットワークを、4つの実体タイプ(個人、企業、口座、機関)を持つ有向ヘテロジニアスグラフとしてモデル化する。
  • マネーロンダリングパターンを P=(S,T) のパターンタプルとして表現し、構造要素 S が実体を選択し、時系列要素 T が取引シーケンスを定義する。
  • 正当な背景グラフへのパターン注入を、実体生成、クラスタリング、パターン注入、パターン集約を含む生成パイプラインを用いて行う。
  • 検知モデルの性能を最適化して難易度を対戦的に調整し、現実的な課題が達成されるまで時間的/トポロジカル制約を調整する。
  • Youden の J 指標を用いてしきい値を設定し、F1、Precision、Recall、PR-AUC を報告する。
  • 違法比 LI=0.10% および HI=0.19% の参考データセットを提供し、最先端のベースラインをベンチマーク用に実装する。
(a)
(a)

実験結果

リサーチクエスチョン

  • RQ1 Tide は複雑なネットワーク内でリアルで時間的に進化するマネーロンダリングパターンを合成 AML データセットとして生成できるか。
  • RQ2異なる ML モデルファミリ(例: LightGBM、XGBoost)は、さまざまな違法割合の下でマネーロンダリング検知でどのようにランク付けされるか。
  • RQ3事前読み込みの類型とカスタムパターン注入は、運用条件全体で堅牢なベンチマーキングを可能にするか。
  • RQ4時間的ダイナミクスと層状構造が、合成 AML グラフにおける検知性能に与える影響は何か。

主な発見

  • 2つの参照データセット(LI=0.10%、HI=0.19%)により、低・高詐欺発生率でのベンチマーキングが可能になる。
  • 低違法比条件では LightGBM が最も高い PR-AUC(78.05)を達成。
  • 高い詐欺発生率では XGBoost が最も高い(85.12)性能を発揮。
  • 運用条件によってモデルのランキングが異なり、アーキテクチャ間で有意な性能変動が見られる。
  • Tide は大規模ネットワークの生成におけるスケーラビリティと効率性を示す。
  • データセットとベースラインモデルは再現性と比較可能な AML 研究を支援する。
(b)
(b)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。