Skip to main content
QUICK REVIEW

[論文レビュー] DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

Xuanwen Huang, Yang Yang|arXiv (Cornell University)|Jun 30, 2022
Blockchain Technology Applications and Security被引用数 28
ひとこと要約

DGraph は実世界の大規模なダイナミック金融グラフを紹介します。ノード3M、エッジ4M、グラウンドトゥルース異常ノード1.225M、背景ノード2.475Mを含み、GAD研究と評価を推進します。

ABSTRACT

Graph Anomaly Detection (GAD) has recently become a hot research spot due to its practicability and theoretical value. Since GAD emphasizes the application and the rarity of anomalous samples, enriching the varieties of its datasets is fundamental work. Thus, this paper present DGraph, a real-world dynamic graph in the finance domain. DGraph overcomes many limitations of current GAD datasets. It contains about 3M nodes, 4M dynamic edges, and 1M ground-truth nodes. We provide a comprehensive observation of DGraph, revealing that anomalous nodes and normal nodes generally have different structures, neighbor distribution, and temporal dynamics. Moreover, it suggests that unlabeled nodes are also essential for detecting fraudsters. Furthermore, we conduct extensive experiments on DGraph. Observation and experiments demonstrate that DGraph is propulsive to advance GAD research and enable in-depth exploration of anomalous nodes.

研究の動機と目的

  • より大規模で現実的なGADデータセットが必要であることを、時系列ダイナミクスと背景ノードを反映させて動機づける。
  • FinvolutionデータからDGraphを構築し、背景ノードの包含と異常ノードラベリングによる不正利用者検出を可能にする。
  • 構造、近傍特徴、時系列ダイナミクスの観点から、異常ノードと正常ノードの違いについて包括的な観察を提供する。
  • オンラインのリーダーボードを提供し、産業規模のデータセット上で現在および将来のGAD手法を評価するベンチマークを告知する。

提案手法

  • Finvolutionユーザー間の緊急連絡先リンクから時刻付きエッジを含む有向ダイナミックグラフを構築する。
  • 基本プロフィールから17次元のノード特徴を抽出し、プライバシ保護のため欠損値を-1としてエンコードする。
  • 借入行動に基づいて1.225Mの不正利用者ノードと1.211Mの正常ノードをラベル付けし、借入活動のない背景ノードを2.475M含める。
  • 異常ノードと正常ノードの構造・特徴・時系列の差異を分析し、背景ノードが連結性と検出に与える役割を評価する。
  • DGraph上で9つの教師ありと7つの教師なしGAD手法を評価し、ベースラインのMLPおよびグラフのみモデルと比較する。
  • オンラインのリーダーボードを提供し、DGraphでのベンチマーキングを促進する予定の競技会を告知する。

実験結果

リサーチクエスチョン

  • RQ1現在の教師ありおよび教師なしGAD手法は、DGraphのような大規模でダイナミックな金融グラフ上でどれほどの性能を発揮するか?
  • RQ2欠損値と背景ノードがDGraphの不正検出に与える影響はどの程度か?
  • RQ3DGraph内で異常ノードと正常ノードはグラフ構造・近傍特徴・時系列ダイナミクスの点でどのように異なるか?
  • RQ4背景ノードを活用して効率を損なうことなくGADの性能を向上させることは可能か?

主な発見

手法検証AUC検証APテストAUCテストAP
MLPs0.717 ± 0.0020.026 ± 0.0000.723 ± 0.0020.027 ± 0.000
Node2Vec0.626 ± 0.0020.019 ± 0.0000.629 ± 0.0020.020 ± 0.000
GCN0.746 ± 0.0010.035 ± 0.0000.751 ± 0.0020.037 ± 0.000
SAGE0.770 ± 0.0010.039 ± 0.0010.778 ± 0.0010.043 ± 0.001
TGAT0.783 ± 0.0010.041 ± 0.0000.792 ± 0.0010.044 ± 0.001
DevNet0.707 ± 0.0010.025 ± 0.0000.715 ± 0.0010.026 ± 0.000
CARE-GNN0.734 ± 0.0040.032 ± 0.0020.741 ± 0.0060.033 ± 0.002
PC-GNN0.725 ± 0.0060.029 ± 0.0020.734 ± 0.0060.030 ± 0.002
AMNet0.746 ± 0.0030.032 ± 0.0010.752 ± 0.0030.032 ± 0.001
  • DGraphはこれまでで最大級の公開GADデータセットであり、3.7Mノードと4.3Mエッジ、1.225Mのラベル付き異常ノード(異常率1.3%)、背景ノード2.475M(全体の欠搜値49.9%)を含む。
  • 不正利用者と正常ユーザーは出次数、近傍特徴の類似性、欠損値パターン、エッジの時系列ダイナミクスの点で異なり、単純な構造だけでなく複数の検出手が示唆される。
  • 背景ノードはグラフの連結性を維持するために不可欠で、詐欺検出に有用な意味情報を含むが、特徴だけで識別するのは難しい。異種モデル化とBNラベリングの明示は性能を向上させる。
  • 欠損値はGNNの性能に大きな影響を与える。欠損をエンコードする「トリック」やフラグ(特にトリックB)はGCNベースのモデルで有意なAUC向上をもたらす。
  • エンドツーエンドのGNNベースのGAD手法は、DGraph上で従来のGNNやベースラインと比べて性能が低く、ダイナミクス・欠損データ・背景ノードに対処できるモデルの必要性を示唆する。
  • 背景ノード処理(GCN+Label、RGCN)を用いた実験は意義深い向上を示し、例えばRGCNは標準GCNより高いAUCを達成しており、BN対応アプローチの価値を強調する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。