Skip to main content
QUICK REVIEW

[논문 리뷰] DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection

Xuanwen Huang, Yang Yang|arXiv (Cornell University)|2022. 06. 30.
Blockchain Technology Applications and Security인용 수 28
한 줄 요약

DGraph는 노드 3M개 이상, 간선 4M개, 실제 라벨링된 이상 노드 1.225M개, 추가로 백그라운드 노드 2.475M개를 포함하는 실세계의 대규모 동적 금융 그래프를 도입하여 그래프 이상 탐지(GAD) 연구와 평가를 발전시킨다.

ABSTRACT

Graph Anomaly Detection (GAD) has recently become a hot research spot due to its practicability and theoretical value. Since GAD emphasizes the application and the rarity of anomalous samples, enriching the varieties of its datasets is fundamental work. Thus, this paper present DGraph, a real-world dynamic graph in the finance domain. DGraph overcomes many limitations of current GAD datasets. It contains about 3M nodes, 4M dynamic edges, and 1M ground-truth nodes. We provide a comprehensive observation of DGraph, revealing that anomalous nodes and normal nodes generally have different structures, neighbor distribution, and temporal dynamics. Moreover, it suggests that unlabeled nodes are also essential for detecting fraudsters. Furthermore, we conduct extensive experiments on DGraph. Observation and experiments demonstrate that DGraph is propulsive to advance GAD research and enable in-depth exploration of anomalous nodes.

연구 동기 및 목표

  • 실세계 그래프에서 시간적 동 dynamics와 백그라운드 노드를 반영하는 더 크고 더 현실적인 GAD 데이터세트의 필요성을 동기화합니다.
  • 금융발전(Finvolution) 데이터로부터 DGraph를 구성하여 이상 노드 라벨링과 백그라운드 노드의 포함을 통해 사기꾼 탐지를 가능하게 합니다.
  • 구조, 이웃 특성 및 시간적 동역學에서 이상 노드와 정상 노드가 어떻게 다른지에 대한 종합적인 관찰을 제공합니다.
  • 온라인 리더보드를 제공하고 산업 규모의 데이터세트에서 현재 및 향후 GAD 방법을 평가하기 위한 벤치마크를 알립니다.

제안 방법

  • Finvolution 사용자 간의 긴급 연락처 링크로부터 시간 스탬프가 포함된 간선을 가진 방향성 동적 그래프를 구성합니다.
  • 기본 프로파일에서 17차원 노드 특성을 추출하고 누락 값을 -1로 인코딩하여 프라이버시를 보호합니다.
  • 차용 행태를 기반으로 122.5만 개의 사기꾼 노드와 1211만 개의 정상 노드를 라벨링하고, 차용 활동이 없는 247.5만 개의 백그라운드 노드를 포함합니다.
  • 이상 노드와 정상 노드 간의 구조적, 특성 및 시간적 차이를 분석하고 연결성 및 탐지에서 백그라운드 노드의 역할을 평가합니다.
  • DGraph의 9가지 지도 학습 및 7가지 비지도 GAD 방법을 평가하고 베이스라인 MLP 및 그래프 전용 모델과 비교합니다.
  • 온라인 리더보드를 제공하고 DGraph에서 벤치마킹을 촉진하기 위한 예정된 대회를 발표합니다.

실험 결과

연구 질문

  • RQ1현재의 지도 학습 및 비지도 GAD 방법이 DGraph와 같은 대규모 동적 금융 그래프에서 얼마나 잘 작동하는가?
  • RQ2누락 값과 백그라운드 노드가 DGraph에서의 사기꾼 탐지에 미치는 영향은 무엇인가?
  • RQ3이상 노드와 정상 노드가 DGraph 내의 그래프 구조, 이웃 특성, 시간적 동역학에서 어떻게 다른가?
  • RQ4백그라운드 노드를 활용하여 효율성을 해치지 않으면서 GAD 성능을 개선할 수 있는가?

주요 결과

방법검증 AUC검증 AP테스트 AUC테스트 AP
MLPs0.717 ± 0.0020.026 ± 0.0000.723 ± 0.0020.027 ± 0.000
Node2Vec0.626 ± 0.0020.019 ± 0.0000.629 ± 0.0020.020 ± 0.000
GCN0.746 ± 0.0010.035 ± 0.0000.751 ± 0.0020.037 ± 0.000
SAGE0.770 ± 0.0010.039 ± 0.0010.778 ± 0.0010.043 ± 0.001
TGAT0.783 ± 0.0010.041 ± 0.0000.792 ± 0.0010.044 ± 0.001
DevNet0.707 ± 0.0010.025 ± 0.0000.715 ± 0.0010.026 ± 0.000
CARE-GNN0.734 ± 0.0040.032 ± 0.0020.741 ± 0.0060.033 ± 0.002
PC-GNN0.725 ± 0.0060.029 ± 0.0020.734 ± 0.0060.030 ± 0.002
AMNet0.746 ± 0.0030.032 ± 0.0010.752 ± 0.0030.032 ± 0.001
  • DGraph는 현재까지 공개된 가장 큰 GAD 데이터세트로, 370만 개의 노드와 430만 개의 간선, 122.5만 개의 라벨링된 이상 노드(이상률 1.3%)와 247.5만 개의 백그라운드 노드를 포함합니다(전체 누락 값 49.9%).
  • 사기꾼과 정상 사용자는 외향 차수, 이웃 특성 유사성, 누락 값 패턴 및 간선의 시간적 역학에서 다름을 보이며, 단순한 구조를 넘어선 탐지 신호를 제시합니다.
  • 백그라운드 노드는 그래프 연결성 유지에 필수적이며 사기 탐지에 유용한 의미 정보를 포함하지만, 특징 만으로 구별하기 어렵습니다. 이종 모델링 및 명시적 BN 라벨링이 성능을 향상시킵니다.
  • 누락 값은 GNN 성능에 상당한 영향을 미치며, 누락성 인코딩과 플래그(특히 Trick B)가 GCN 기반 모델의 AUC를 크게 향상시킵니다.
  • End-to-end GNN 기반 GAD 방식은 DGraph에서 전통적인 GNN 및 베이스라인 대비 저조하게 나타나고, 동적 특성, 누락 데이터 및 백그라운드 노드를 더 잘 다루는 모델의 필요성이 시사됩니다.
  • 백그라운드 노드 처리(GCN+Label, RGCN) 실험은 의미 있는 이점을 보여주며, 예를 들어 RGCN이 표준 GCN보다 더 높은 AUC를 달성하는 등 BN 인식 접근의 가치가 강조됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.