QUICK REVIEW

[论文解读] DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

Xuanwen Huang, Yang Yang|arXiv (Cornell University)|Jun 30, 2022

Blockchain Technology Applications and Security被引用 28

一句话总结

DGraph 引入了一个现实世界的、规模较大的动态金融图，具有超过3M节点、4M边，以及1.225M已知异常节点，还有2.475M背景节点，以推动图异常检测（GAD）的研究和评估。

ABSTRACT

Graph Anomaly Detection (GAD) has recently become a hot research spot due to its practicability and theoretical value. Since GAD emphasizes the application and the rarity of anomalous samples, enriching the varieties of its datasets is fundamental work. Thus, this paper present DGraph, a real-world dynamic graph in the finance domain. DGraph overcomes many limitations of current GAD datasets. It contains about 3M nodes, 4M dynamic edges, and 1M ground-truth nodes. We provide a comprehensive observation of DGraph, revealing that anomalous nodes and normal nodes generally have different structures, neighbor distribution, and temporal dynamics. Moreover, it suggests that unlabeled nodes are also essential for detecting fraudsters. Furthermore, we conduct extensive experiments on DGraph. Observation and experiments demonstrate that DGraph is propulsive to advance GAD research and enable in-depth exploration of anomalous nodes.

研究动机与目标

推动需要更大、更现实的 GAD 数据集，能够反映真实世界图中的时序动态和背景节点。
基于 Finvolution 数据构建 DGraph，以通过异常节点标注和包含背景节点来实现欺诈者检测。
提供关于异常节点与正常节点在结构、邻居特征和时序动态方面差异的全面观察。
提供在线排行榜和基准测试，以在工业规模数据集上评估当前及未来的 GAD 方法。

提出的方法

从 Finvolution 用户之间的紧急联系人链接构建一个带时间戳边的有向动态图。
从基本资料中提取17维节点特征，并将缺失值编码为-1以保护隐私。
基于借贷行为标记122.5万欺诈者和121.1万正常节点，再加上247.5万没有借贷活动的背景节点。
分析异常节点与正常节点在结构、特征和时序上的差异，并评估背景节点在连通性与检测中的作用。
在 DGraph 上评估9种有监督和7种无监督的 GAD 方法，并与基线的多层感知机（MLP）和仅图模型进行比较。
提供在线排行榜并宣布计划在 DGraph 上举办竞赛以促进基准测试。

实验结果

研究问题

RQ1当前有监督和无监督的 GAD 方法在像 DGraph 这样的大规模动态金融图上的表现如何？
RQ2缺失值和背景节点对 DGraph 中的欺诈者检测有何影响？
RQ3在 DGraph 中，异常节点与正常节点在图结构、邻居特征和时序动态方面的差异如何？
RQ4是否可以利用背景节点在不影响效率的情况下提升 GAD 性能？

主要发现

方法	验证 AUC	验证 AP	测试 AUC	测试 AP
MLPs	0.717 ± 0.002	0.026 ± 0.000	0.723 ± 0.002	0.027 ± 0.000
Node2Vec	0.626 ± 0.002	0.019 ± 0.000	0.629 ± 0.002	0.020 ± 0.000
GCN	0.746 ± 0.001	0.035 ± 0.000	0.751 ± 0.002	0.037 ± 0.000
SAGE	0.770 ± 0.001	0.039 ± 0.001	0.778 ± 0.001	0.043 ± 0.001
TGAT	0.783 ± 0.001	0.041 ± 0.000	0.792 ± 0.001	0.044 ± 0.001
DevNet	0.707 ± 0.001	0.025 ± 0.000	0.715 ± 0.001	0.026 ± 0.000
CARE-GNN	0.734 ± 0.004	0.032 ± 0.002	0.741 ± 0.006	0.033 ± 0.002
PC-GNN	0.725 ± 0.006	0.029 ± 0.002	0.734 ± 0.006	0.030 ± 0.002
AMNet	0.746 ± 0.003	0.032 ± 0.001	0.752 ± 0.003	0.032 ± 0.001

DGraph 是迄今为止最大的公开 GAD 数据集，拥有370万节点和430万边，以及122.5万标注的异常节点（异常率1.3%）和247.5万背景节点（总体缺失值49.9%）。
欺诈者与正常用户在出度、邻居特征相似性、缺失值模式和边的时序动态方面存在差异，提示除了简单结构之外还有多重线索用于检测。
背景节点对于维持图的连通性至关重要，并包含对欺诈检测有用的语义信息，然而仅靠特征很难区分；异构建模和显式 BN 标注可以提升性能。
缺失值显著影响 GNN 的性能；对缺失性和标志进行编码的技巧（特别是技巧B）为基于 GCN 的模型带来显著的 AUC 提升。
端到端的基于 GNN 的 GAD 方法在 DGraph 上的表现不及传统 GNN 和基线，暗示需要能够更好处理动态性、缺失数据和背景节点的模型。
对背景节点处理的实验（GCN+Label、RGCN）显示显著提升，例如 RGCN 的 AUC 高于标准 GCN，凸显了 BN 感知方法的价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。