Skip to main content
QUICK REVIEW

[论文解读] OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs

Weihua Hu, Matthias Fey|arXiv (Cornell University)|Mar 17, 2021
Advanced Graph Neural Networks参考文献 62被引用 120
一句话总结

OGB-LSC 引入三個真實世界的超大規模圖數據集(MAG240M、WikiKG90M、PCQM4M),用於節點、連結和圖級預測,同時提供可擴展的基準方法,以及 KDD Cup 2021 的結果,顯示在大規模下表現良好的 GNN 相較於簡單基線具有更高的表現。

ABSTRACT

Enabling effective and efficient machine learning (ML) over large-scale graph data (e.g., graphs with billions of edges) can have a great impact on both industrial and scientific applications. However, existing efforts to advance large-scale graph ML have been largely limited by the lack of a suitable public benchmark. Here we present OGB Large-Scale Challenge (OGB-LSC), a collection of three real-world datasets for facilitating the advancements in large-scale graph ML. The OGB-LSC datasets are orders of magnitude larger than existing ones, covering three core graph learning tasks -- link prediction, graph regression, and node classification. Furthermore, we provide dedicated baseline experiments, scaling up expressive graph ML models to the massive datasets. We show that expressive models significantly outperform simple scalable baselines, indicating an opportunity for dedicated efforts to further improve graph ML at scale. Moreover, OGB-LSC datasets were deployed at ACM KDD Cup 2021 and attracted more than 500 team registrations globally, during which significant performance improvements were made by a variety of innovative techniques. We summarize the common techniques used by the winning solutions and highlight the current best practices in large-scale graph ML. Finally, we describe how we have updated the datasets after the KDD Cup to further facilitate research advances. The OGB-LSC datasets, baseline code, and all the information about the KDD Cup are available at https://ogb.stanford.edu/docs/lsc/ .

研究动机与目标

  • 提供覆蓋節點、邊、圖級任務的大規模、現實感強的圖機器學習基準。
  • 在大規模條件下評估簡單可擴展基線與表達性 GNN 之間的性能差距。
  • 通過基準、基線和排行榜促進社群參與,推動大規模圖學習。
  • 分析來自 KDD Cup 2021 重大比賽的實用洞見。
  • 提供數據集更新以持續推進大規模圖機器學習的研究進展。

提出的方法

  • 介紹三個數據集(MAG240M、WikiKG90M、PCQM4M),並給出節點/邊/圖統計。
  • 為實體/論文提供基於 RoBERTa 的文本特徵,以及標準圖特徵。
  • 以鄰居採樣在從簡單基線(MLP、Label Propagation)到可擴展的表達性 GNN(GraphSAGE、GAT)的範圍模型進行基準測試。
  • 在 MAG240M 中擴展到具關係特定權重的異質圖(R-GraphSAGE、R-GAT)。
  • 使用標準評估指標:節點分類的準確率、KG 完成的 MRR,以及圖回歸的 MAE。
  • 報告 KDD Cup 2021 的結果並總結得獎者常用的技術。

实验结果

研究问题

  • RQ1大規模圖怎樣影響表達性 GNN 相對於簡單基線的性能?
  • RQ2異質性和關係特定建模對 MAG240M 的節點級預測有何影響?
  • RQ3在 WikiKG90M 上結合文本與結構編碼器的知識圖完成是否有益?
  • RQ4在 PCQM4M 上使用大型深層 GNN 進行圖級分子性質預測可實現的性能增益是多少?
  • RQ5來自 KDD Cup 2021 的哪些經驗教訓可以推動圖機器學習的可擴展最佳實踐?

主要发现

  • 在 MAG240M 和 WikiKG90M 上,具鄰居採樣的表達性 GNN 顯著優於簡單基線,準確率或 MRR 提升達到數個百分點。
  • 在 MAG240M 中利用異質關係相較於同質設定帶來顯著提升。
  • 將文本信息與結構嵌入結合(拼接編碼器)在 WikiKG90M 的 KG 完成任務上提供強勁表現。
  • 深度、大型 GNN,具全局信息傳遞,在某些情況下還結合 3D 分子結構信息,顯著提升 PCQM4M/PCQM4Mv2 結果,接近化學相關基準。
  • KDD Cup 2021 得冠者在基線之上實現顯著改進,突顯模型集成、時間信息和先進架構(例如基於 Transformer 的 UniMP、KG 編碼器)的價值。
  • WikiKG90Mv2 引入更嚴格的負樣本選擇設置,反映現實的 KG 完成挑戰,降低樂觀分數。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。