Skip to main content
QUICK REVIEW

[論文レビュー] Temporal Graph Benchmark for Machine Learning on Temporal Graphs

Shenyang Huang, Farimah Poursafaei|arXiv (Cornell University)|Jul 3, 2023
Advanced Graph Neural Networks被引用数 23
ひとこと要約

本論文は Temporal Graph Benchmark (TGB) を紹介します。大規模で多様な時系列グラフデータセットの集合で、標準化された評価と公開リーダーボードを備え、現実的な設定の下で動的リンクおよびノード特性予測手法を評価します。

ABSTRACT

We present the Temporal Graph Benchmark (TGB), a collection of challenging and diverse benchmark datasets for realistic, reproducible, and robust evaluation of machine learning models on temporal graphs. TGB datasets are of large scale, spanning years in duration, incorporate both node and edge-level prediction tasks and cover a diverse set of domains including social, trade, transaction, and transportation networks. For both tasks, we design evaluation protocols based on realistic use-cases. We extensively benchmark each dataset and find that the performance of common models can vary drastically across datasets. In addition, on dynamic node property prediction tasks, we show that simple methods often achieve superior performance compared to existing temporal graph models. We believe that these findings open up opportunities for future research on temporal graphs. Finally, TGB provides an automated machine learning pipeline for reproducible and accessible temporal graph research, including data loading, experiment setup and performance evaluation. TGB will be maintained and updated on a regular basis and welcomes community feedback. TGB datasets, data loaders, example codes, evaluation setup, and leaderboards are publicly available at https://tgb.complexdatalab.com/.

研究の動機と目的

  • 複数のドメインとタスクに跨る、時系列グラフ学習のための大規模で多様かつ現実的なベンチマークを作成する。
  • 現実の利用ケースを反映し、楽観的すぎる性能報告を緩和するように評価プロトコルを標準化する。
  • データの読み込み、実験設定、再現性のある性能ベンチマークを公的リーダーボード上で行う自動化パイプラインを提供する。
  • データセットとタスク間でモデル性能が大きく変動することを示し、より広範な評価と手法開発を促す。
  • ノードレベルの時系列グラフ学習の適用範囲を拡大する新しいノードアフィニティ予測タスクを導入する。

提案手法

  • 社会、相互作用、評価、交通、貿易ドメインにまたがる7つの新規時系列グラフデータセットを大規模(ノード、エッジ、タイムスタンプ)かつ多様な特性を持つ形で組み立てる。
  • 動的リンクプロパティ予測のために履歴的およびランダムネガティブを混ぜた評価プロトコルを設計し、主要指標としてMean Reciprocal Rank (MRR) を用いる。
  • 動的ノード特性のためのノードアフィニティ予測を導入し、提案されたアフィニティのランキング品質を評価するためにNDCG@10を用いる。
  • TemporalData形式へのダウンロード・処理・再現性のある実験を公的リーダーボードとともに実行する自動化MLパイプラインを提供する。
  • 既存のTGモデル(例:DyRep、TGN、CAWN、TCL、GraphMixer、NAT、TGAT)とヒューリスティック(EdgeBankのバリアント)をすべてのデータセットに対してベンチマークする。
  • 小規模・中規模・大規模データセット間での性能を比較し、データセット依存のモデル長所と弱点を浮き彫りにする。

実験結果

リサーチクエスチョン

  • RQ1最先端の時系列グラフモデルは、動的リンクプロパティ予測のための大規模で多様な現実世界に近いデータセットでどのように性能を発揮するか?
  • RQ2データセット間でモデル性能が大きく変動するか。時系列グラフの単一データセットベンチマークの限界を示すか?
  • RQ3単純なヒューリスティックは動的ノード特性予測で学習済みの時系列グラフモデルと競合するか。どのような条件下でそうなるか?
  • RQ4現実の時系列グラフの利用ケースを最もよく反映する評価プロトコルは何か。特にネガティブサンプリングとランキング指標に関して?
  • RQ5ノードレベルのタスクとしてノードアフィニティ予測を導入する意義は何か、そしてそれをどのように測定すべきか?

主な発見

  • 時系列グラフのベンチマークは、動的リンク予測においてデータセット間で大きな性能変動を示しており、多様な評価の必要性を強調している。
  • 小規模データセットでは特定のニューラルTGモデル(例:NAT、CAWN)が他を上回るが、データセット間で順位は大きく変動する;tgbl-wiki では NAT が最良、tgbl-review では GraphMixer と TGAT が上位に。
  • 中規模・大規模データセットでは、TGN が概ね高い性能を示す一方、EdgeBank ヒューリスティックが一部タスクで依然競争力を保つ(例:tgbl-coin)。
  • ノードアフィニティ予測の結果は、単純なヒューリスティック(永続予測、移動平均)が複数のデータセットで最先端TG手法を上回ることを示し、ノードレベル手法の開発余地を示している。
  • 統合された TGB パイプラインは再現可能な実験と公開リーダーボードを可能にし、公正な比較と時系列グラフ学習の迅速な進展を促進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。