[論文レビュー] GADBench: Revisiting and Benchmarking Supervised Graph Anomaly Detection
tldr: GADBench は、29モデル(ツリーアンサンブルと GNN を含む)を比較する、10の実データセットで行われる、初の包括的な監督付きグラフ異常検知ベンチマークを実施しており、近傍集約を用いるシンプルなツリーアンサンブルがしばしば GNN を上回ること、そして専門特化型 GNN に対するハイパーパラメータ調整が重要であることを明らかにしています。
With a long history of traditional Graph Anomaly Detection (GAD) algorithms and recently popular Graph Neural Networks (GNNs), it is still not clear (1) how they perform under a standard comprehensive setting, (2) whether GNNs can outperform traditional algorithms such as tree ensembles, and (3) how about their efficiency on large-scale graphs. In response, we introduce GADBench -- a benchmark tool dedicated to supervised anomalous node detection in static graphs. GADBench facilitates a detailed comparison across 29 distinct models on ten real-world GAD datasets, encompassing thousands to millions ($\sim$6M) nodes. Our main finding is that tree ensembles with simple neighborhood aggregation can outperform the latest GNNs tailored for the GAD task. We shed light on the current progress of GAD, setting a robust groundwork for subsequent investigations in this domain. GADBench is open-sourced at https://github.com/squareRoot3/GADBench.
研究の動機と目的
- 静的属性グラフ上の監督付き異常ノード検知のため、幅広いモデルの性能を評価する。
- データセット選択、指標、トレーニング分割、ハイパーパラメータ調整に対処する、フェアで包括的なベンチマークプロトコルを提供する。
- 大規模グラフ上で、古典的な機械学習手法、標準 GNN、GAD 専用の特殊 GNN、近傍集約を用いたツリーアンサンブルを比較する。
提案手法
- クラシック手法、標準 GNN、GAD 専用の特殊 GNN の3カテゴリにわたって 29モデルを組み上げ、加えて近傍集約を用いたツリーアンサンブル(RF-Graph および XGB-Graph)を含める。
- ノード数が千〜百万規模の実世界の GAD データセットを10個使用し、完全教師ありと半教師ありの設定を評価する。
- データ分割を標準化する(分割が提供されていない場合は 40/20/40、提供されている場合はその分割を使用する);半教師ありでは、100ラベル予算(陽性20、陰性80)を固定し、10回のランダム分割を行う。
- AUROC、AUPRC(平均精度)、Rec@K(K はテストセットの異常の数)で評価し、実行時間とメモリを報告する。
- 公正性のためランダムサーチによるハイパーパラメータ調整を実施;デフォルトと調整後の性能を比較する。
- 近傍集約ベースのツリーアンサンブル(RF-Graph、XGB-Graph)を分析し、GNN と比べた効率性と精度を定量化する。

実験結果
リサーチクエスチョン
- RQ1監督付き GAD モデル(近傍集約を用いたツリーアンサンブルを含む)は、多様な実世界グラフにおいて標準的および特殊な GNN とどのように比較されるか。
- RQ2単純な近傍集約を用いたツリーアンサンブルは、最新の GAD 専用設計の GNN よりも精度と効率の両方で上回るか。
- RQ3GAD 専用の GNN の性能はハイパーパラメータ調整でどのように影響を受け、どの条件下で競争力を得られるか。
- RQ4特徴タイプ、次数分布、データ不均衡などのデータセット特性が GADBench のモデル性能にどのように影響するか。
- RQ5集計型式( inductive / transductive )および異種グラフにおいてモデルはどのように性能を発揮するか。
主な発見
- 近傍集約を用いたツリーアンサンブル(RF-Graph、XGB-Graph)は、ほとんどの指標とデータセットで他のモデルを一貫して上回る。
- ほとんどの標準 GNN はハイパーパラメータが調整されていないと GAD タスクで性能が低いが、例外として GraphSAGE は調整により競合できる場合がある。
- GAD 専用の GNN はハイパーパラメータ調整で改善するものの、通常はより長いトレーニング時間とメモリを要し、データセットに依存して利得が変動する;調整済みの BWGNN は特定のデータセットで RF-Graph/XGB-Graph を上回ることがある。
- 半教師あり設定では、RF-Graph と XGB-Graph が AUPRC と Rec@K で顕著な利得を示し、ラベル不足下でのトップ-k 異常検知の強さを示す。
- データセットによっては(例:DGraph-Fin)すべての手法が極端な不均衡と区別不能なノード特徴のために困難であり、データセットがもたらす限界を強調する。
- 近傍集約の2層は、RF-Graph と XGB-Graph の最良の性能には一般に十分であり、層を増やすと収益が減少する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。