Skip to main content
QUICK REVIEW

[논문 리뷰] OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs

Weihua Hu, Matthias Fey|arXiv (Cornell University)|2021. 03. 17.
Advanced Graph Neural Networks참고 문헌 62인용 수 120
한 줄 요약

OGB-LSC는 노드-, 간선-, 그래프 수준 예측을 위한 실제 세계의 초대형 그래프 데이터셋 세 가지(MAG240M, WikiKG90M, PCQM4M)를 도입하고, 확장 가능한 베이스라인과 KDD Cup 2021 결과를 통해 표현력 있는 GNN이 규모 확장에서 단순 베이스라인보다 더 우수함을 보여준다.

ABSTRACT

Enabling effective and efficient machine learning (ML) over large-scale graph data (e.g., graphs with billions of edges) can have a great impact on both industrial and scientific applications. However, existing efforts to advance large-scale graph ML have been largely limited by the lack of a suitable public benchmark. Here we present OGB Large-Scale Challenge (OGB-LSC), a collection of three real-world datasets for facilitating the advancements in large-scale graph ML. The OGB-LSC datasets are orders of magnitude larger than existing ones, covering three core graph learning tasks -- link prediction, graph regression, and node classification. Furthermore, we provide dedicated baseline experiments, scaling up expressive graph ML models to the massive datasets. We show that expressive models significantly outperform simple scalable baselines, indicating an opportunity for dedicated efforts to further improve graph ML at scale. Moreover, OGB-LSC datasets were deployed at ACM KDD Cup 2021 and attracted more than 500 team registrations globally, during which significant performance improvements were made by a variety of innovative techniques. We summarize the common techniques used by the winning solutions and highlight the current best practices in large-scale graph ML. Finally, we describe how we have updated the datasets after the KDD Cup to further facilitate research advances. The OGB-LSC datasets, baseline code, and all the information about the KDD Cup are available at https://ogb.stanford.edu/docs/lsc/ .

연구 동기 및 목표

  • 노드-, 간선-, 그래프 수준 작업 전반에 걸친 대규모이고 실질적인 그래프 ML 벤치마크를 제공한다.
  • 확대된 규모에서 간단한 확장 가능한 베이스라인과 표현력 있는 GNN 간의 성능 격차를 평가한다.
  • 대규모 그래프 학습을 위한 벤치마크, 베이스라인, 그리고 리더보드를 통해 커뮤니티 참여를 촉진한다.
  • 주요 KDD Cup 2021 대회로부터 실용적 인사이트를 분석한다.
  • 대규모 그래프 ML의 진전을 지속하기 위한 데이터셋 업데이트를 제공한다.

제안 방법

  • 노드/에지/그래프 통계를 포함한 세 가지 데이터셋(MAG240M, WikiKG90M, PCQM4M)을 소개한다.
  • 개체/논문에 대한 RoBERTa 기반 텍스트 특성과 표준 그래프 특성을 제공한다.
  • 이웃 샘플링을 활용하여 간단한 베이스라인(MLP, Label Propagation)에서 확장 가능한 표현력 있는 GNN(GraphSAGE, GAT)에 이르는 다양한 모델을 벤치마킹한다.
  • MAG240M에서 관계별 가중치를 갖는 이질 그래프(R-GraphSAGE, R-GAT)로 확장한다.
  • 표준 평가 지표를 사용한다: 노드 분류의 정확도, KG 완성을 위한 MRR, 그래프 회귀의 MAE.
  • KDD Cup 2021 결과를 보고 우승자들이 사용한 공통 기법들을 요약한다.

실험 결과

연구 질문

  • RQ1대규모 그래프가 표현력 있는 GNN과 단순 베이스라인의 성능에 어떤 영향을 미치는가?
  • RQ2MAG240M에서 이질성 및 관계별 모델링이 노드 수준 예측에 미치는 영향은 무엇인가?
  • RQ3WikiKG90M에서 텍스트 인코더와 구조 인코더를 결합한 것이 지식 그래프 완성에 도움이 될 수 있는가?
  • RQ4대형, 깊은 GNN으로 PCQM4M에서 그래프 수준의 분자 특성 예측에서 실현 가능한 성능 향상은 무엇인가?
  • RQ5KDD Cup 2021의 교훈이 그래프 ML 확장에 대한 모범 사례를 어떻게 향상시키는가?

주요 결과

  • 이웃 샘플링이 포함된 표현력 있는 GNN은 MAG240M 및 WikiKG90M에서 단순 베이스라인보다 상당히 우수하며, 정확도나 MRR에서 수 퍼센트포인트에 달하는 이득이 있다.
  • MAG240M에서 이질적 관계를 활용하면 동질 설정에 비해 두드러진 향상이 나타난다.
  • 텍스트 정보와 구조 임베딩을 결합한(Concatenation encoders) 것은 KG 완성에서 WikiKG90M에 대해 강력한 성능을 제공한다.
  • 전역 메시지 전달이 있는 깊고 큰 GNN과 경우에 따라 3D 분자 구조 정보는 PCQM4M/PCQM4Mv2 결과를 크게 개선하여 화학 관련 벤치마크에 근접하게 한다.
  • KDD Cup 2021 우승자들은 베이스라인 대비 상당한 향상을 달성하며 모델 앙상블, 시간 정보, 고급 아키텍처(예: Transformer 기반 UniMP, KG 인코더)의 가치를 강조한다.
  • WikiKG90Mv2는 현실적인 KG 완성 과제를 반영한 더 어려운 음수 선택 설정을 도입하여 낙관적 점수를 감소시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.