QUICK REVIEW

[論文レビュー] Towards Better Evaluation for Dynamic Link Prediction

Farimah Poursafaei, Shenyang Huang|arXiv (Cornell University)|Jul 20, 2022

Advanced Graph Neural Networks被引用数 31

ひとこと要約

本論文は現在の動的リンク予測評価を批判し、2つのより厳しいネガティブサンプリング手法、記憶化ベースラインEdgeBank、新しい動的グラフデータセット、および手法をより識別するための可視化ツールTEA/TETを紹介する。

ABSTRACT

Despite the prevalence of recent success in learning from static graphs, learning from time-evolving graphs remains an open challenge. In this work, we design new, more stringent evaluation procedures for link prediction specific to dynamic graphs, which reflect real-world considerations, to better compare the strengths and weaknesses of methods. First, we create two visualization techniques to understand the reoccurring patterns of edges over time and show that many edges reoccur at later time steps. Based on this observation, we propose a pure memorization baseline called EdgeBank. EdgeBank achieves surprisingly strong performance across multiple settings because easy negative edges are often used in the current evaluation setting. To evaluate against more difficult negative edges, we introduce two more challenging negative sampling strategies that improve robustness and better match real-world applications. Lastly, we introduce six new dynamic graph datasets from a diverse set of domains missing from current benchmarks, providing new challenges and opportunities for future research. Our code repository is accessible at https://github.com/fpour/DGB.git.

研究の動機と目的

動的リンク予測の既存評価手順の限界を特定する。
実世界のエッジ再出現を反映する、より堅牢なネガティブサンプリング戦略を提案する。
メモリ化効果を評価するためのシンプルな記憶ベースライン（EdgeBank）を導入する。
評価の幅を広げるため、さまざまなドメインからの六つの新しい動的グラフデータセットを提供する。
時間を通じたエッジ再出現とトラフィックパターンを特徴づける可視化ツール（TEA and TET）を開発する。

提案手法

TEAプロットを開発して、時間とともに繰り返しのエッジと新規エッジの混成を可視化する。
TETプロットを開発して、エッジ再発生パターンを示し、トレーニング/テストエッジを分類する。
観測されたエッジを格納し、記憶されたエッジを陽性として予測する、パラメータ化されていない memorization ベースライン EdgeBank を提案する。
より難しく、より現実的な評価シナリオを作成するため、2つの新規ネガティブサンプリング戦略—historical NS および inductive NS—を導入する。
標準的なランダム NS と新しい NS 戦略の下で、最先端の動的グラフニューラルネットワークを、さまざまなデータセットに跨って評価する。

実験結果

リサーチクエスチョン

RQ1より挑戦的なネガティブサンプルで評価した場合、既存の動的リンク予測手法はどれだけ差別化できるか？
RQ2データセットを横断する動的リンク予測において、メモリ化が性能にどの程度寄与するか？
RQ3現在のベンチマークはドメインの多様性をカバーしているか、それとも特定の動的パターンを他より有利にしているか？
RQ4可視化ツール（TEA/TET）は、モデル評価に影響を与えるエッジ再発現パターンを明らかにできるか？

主な発見

EdgeBank、単純な memorization ベースラインは、いくつかのデータセットでSOTA手法と競合し、特定の評価において memorization が強い要因であることを示している。
2つの新規ネガティブサンプリング戦略（historical NS と inductive NS）は、手法のランキングを著しく変更し、ランダム NS では見られない弱点を露呈させる。
動的リンク予測モデルの性能ランキングは、データセットと NS 設定によって大きく異なり、現在のベンチマークは一般化を過大評価している可能性を示している。
六つの新しい動的グラフデータセットは、政治、交通、経済分野から、社会/相互作用ネットワークを超えた評価を拡張する。
TEA および TET プロットは、エッジ再発とトラフィックパターンのドメイン横断的な変動を実証的に示し、より堅牢な評価設計を導く。
EdgeBank は historical NS 設定でうまく機能し、時に複雑なモデルを上回ることがあり、より強力なベースラインの必要性を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。