Skip to main content
QUICK REVIEW

[논문 리뷰] Pitfalls of Graph Neural Network Evaluation

Oleksandr Shchur, Maximilian Mumme|arXiv (Cornell University)|2018. 11. 14.
Advanced Graph Neural Networks참고 문헌 19인용 수 632
한 줄 요약

본 논문은 GNN 아키텍처의 공정한 비교를 위해 표준화된 학습, 하이퍼파라미터 튜닝, 다중 데이터 분할이 필요하다고 제시한다; 그렇지 않으면 평가 설정에 따라 단순한 모델이 복잡한 모델보다 성능을 능가할 수 있다.

ABSTRACT

Semi-supervised node classification in graphs is a fundamental problem in graph mining, and the recently proposed graph neural networks (GNNs) have achieved unparalleled results on this task. Due to their massive success, GNNs have attracted a lot of attention, and many novel architectures have been put forward. In this paper we show that existing evaluation strategies for GNN models have serious shortcomings. We show that using the same train/validation/test splits of the same datasets, as well as making significant changes to the training procedure (e.g. early stopping criteria) precludes a fair comparison of different architectures. We perform a thorough empirical evaluation of four prominent GNN models and show that considering different splits of the data leads to dramatically different rankings of models. Even more importantly, our findings suggest that simpler GNN architectures are able to outperform the more sophisticated ones if the hyperparameters and the training procedure are tuned fairly for all models.

연구 동기 및 목표

  • 표준 및 다양한 학습/평가 설정에서 GNN 아키텍처 간 경험적 비교의 신뢰성을 평가한다.
  • 여러 데이터셋에 걸쳐 서로 다른 학습/검증/테스트 분할이 모델 순위에 어떤 영향을 미치는지 평가한다.
  • 공정한 하이퍼파라미터 튜닝이 더 간단한 모델이 더 진보된 GNN을 능가하도록 만들 수 있음을 보여준다.

제안 방법

  • 일관된 프레임워크에서 네 가지 GNN 아키텍처(GCN, MoNet, GAT, GraphSAGE)를 구현하여 공정한 비교를 수행한다.
  • 모델 간 학습 절차를 표준화(옵티마이저, 초기화, 얼리 스토핑, 배치 전략)하고 포괄적 하이퍼파라미터 격자 탐색을 수행한다.
  • 네 가지 잘 알려진 데이터셋과 네 가지 새로운 데이터셋을 대상으로 100개의 무작위 분할과 각 분할당 20회의 초기화를 통해 평가한다.
  • 데이터 분할에 대한 강건성을 평가하기 위해 데이터셋별 결과와 상대 성능 지표를 함께 보고한다.

실험 결과

연구 질문

  • RQ1다른 학습/검증/테스트 분할이 GNN 아키텍처의 상대 성능에 어떤 영향을 미치는가?
  • RQ2모델 간 공정한 하이퍼파라미터 튜닝이 어떤 아키텍처가 우수하다고 보이는지 바꿔 놓는가?
  • RQ3평가가 표준화되고 여러 분할에 대해 평균화될 때 단순한 모델이 복잡한 모델보다 우수한가?
  • RQ4다양한 그래프 데이터셋에서 평가 설정이 보고된 성능에 미치는 영향은 무엇인가?

주요 결과

  • GNN 기반 모델은 일반적으로 데이터셋 전반에서 베이스라인을 상회하지만 공정하게 평가될 때 어느 한 아키텍처도 지배적이지 않다.
  • 최고의 분할로 성능을 정규화했을 때 GCN이 종종 최상위를 차지하는데, 이는 공정한 튜닝 하에 더 간단한 모델이 더 복잡한 모델과 맞먹거나 능가할 수 있음을 시사한다.
  • 데이터 분할에 따라 모델 순위가 극적으로 달라지므로 단일 분할의 결과는 오해를 불러일으킬 수 있다.
  • 일부 모델(GAT의 Amazon 데이터셋 등)에서 가중치 초기화로 인해 극단적으로 높은 분산이 발생할 수 있어 평균 성능에 영향을 준다.
  • 다중 분할을 사용하면 성능 차이가 주로 아키텍처보다는 하이퍼파라미터 튜닝 및 학습 절차에 의해 좌우된다는 것을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.