QUICK REVIEW

[논문 리뷰] TUDataset: A collection of benchmark datasets for learning with graphs

Morris, Christopher, Kriege, Nils M.|arXiv (Cornell University)|2020. 07. 16.

Advanced Graph Neural Networks참고 문헌 74인용 수 302

한 줄 요약

The paper introduces TUDataset, a collection of over 120 graph datasets for supervised learning, with standardized evaluation procedures, Python data loaders, and baseline kernel and GNN implementations; it also reports a comparative study of graph kernels and graph neural networks on a subset.

ABSTRACT

Recently, there has been an increasing interest in (supervised) learning with graph data, especially using graph neural networks. However, the development of meaningful benchmark datasets and standardized evaluation procedures is lagging, consequently hindering advancements in this area. To address this, we introduce the TUDataset for graph classification and regression. The collection consists of over 120 datasets of varying sizes from a wide range of applications. We provide Python-based data loaders, kernel and graph neural network baseline implementations, and evaluation tools. Here, we give an overview of the datasets, standardized evaluation procedures, and provide baseline experiments. All datasets are available at www.graphlearning.io. The experiments are fully reproducible from the code available at www.github.com/chrsmrrs/tudataset.

연구 동기 및 목표

그래프 학습에서 평가를 표준화하기 위한 대규모의 다양하고 벤치마크용 그래프 데이터셋 세트를 제공한다.
도메인 간 그래프 커널과 graph neural networks (GNNs) 간의 공정한 비교를 가능하게 한다.
커뮤니티에 파이썬 데이터 로더, 기준 구현, 재현 가능한 평가 프로토콜을 제공한다.
커널과 GNN의 기본 성능을 평가하고 전통적 커널이 여전히 경쟁력 있는 부분을 강조한다.

제안 방법

소분자, 생물정보학, 컴퓨터 비전, 소셜 네트워크, 합성 그래프 등 다양한 도메인에서 120+ 그래프 데이터셋을 수집하고 설명한다.
PyTorch Geometric 및 DGL과 호환되는 표준 데이터셋 형식과 파이썬 인터페이스를 제공한다.
기본 비교를 위한 일반적인 그래프 커널(예: Weisfeiler-Lehman 변형, SP, Graphlet)과 표준 GNN 베이스라인(Gin 변형)을 구현한다.
LibSVM/LibLinear를 통한 커널의 교차 검증, Adam으로의 엔드-투-엔드 최적화 및 일관된 하이퍼파라미터 튜닝과 같은 표준화된 평가 절차를 제안한다.
일부 대규모 분자 회귀 작업(Zinc, QM9, Alchemy)을 포함하는 TUDataset의 하위 집합에서 커널 방법과 GNN을 비교하는 실험 연구를 수행한다.
코드 저장소 및 문서(graphlearning.io 및 GitHub)를 통해 재현성을 보장한다.

실험 결과

연구 질문

RQ1고전적인 그래프 커널이 광범위하고 표준화된 그래프 분류 벤치마크에서 현대의 GNN과 어떻게 비교되는가?
RQ2작은 규모에서 중간 규모, 큰 규모의 그래프 데이터셋 전반에 걸쳐 어떤 베이스라인이 가장 잘 작동하며 확장성의 트레이드오프는 무엇인가?
RQ3표준화된 평가 절차가 그래프 학습 방법 간의 더 공정하고 재현 가능한 비교를 가능하게 하는가?
RQ4데이터셋 규모(작은 것에서 큰 것까지)가 커널과 GNN의 상대적 성능에 미치는 영향은 무엇인가?
RQ5하나의 통합 데이터셋 컬렉션이 도메인 간 그래프 표현 학습의 발전을 어떻게 촉진할 수 있는가?

주요 결과

그래프 커널(특히 WL-OA)은 소규모 데이터셋에서 종종 경쟁력 있지만, Gram 행렬 계산으로 인해 큰 데이터셋에는 잘 확장되지 않는다.
더 큰 데이터셋에서 1-WL 커널과 GNN 베이스라인(Gin 변형)이 경쟁력 있는 성능을 보이며, 특정 데이터셋에서 신경망 방법이 두드러진다(예: github_stargazers).
MPNN과 같은 특화된 아키텍처가 일반 GNN 베이스라인 대비 대규모 분자 회귀 작업에서 상당한 이점을 낼 수 있다.
대규모 분자 작업(Zinc, Alchemy, QM9)에서 명시적 분자 아키텍처(MPNN)가 GINE 기반 접근보다 우수하여 도메인 특화 모델의 가치를 보여준다.
보고된 결과 전반에서 고전적 그래프 커널과 SVM의 조합은 그래프 분류에서 특히 소형 데이터셋에서 여전히 경쟁력이 높으며, GNN은 일부 중·대형 규모 작업에서 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.