[논문 리뷰] A Fair Comparison of Graph Neural Networks for Graph Classification
본 논문은 구조 비의존 기저선을 포함한 9개 데이터셋에 걸친 다섯 가지 GNN 아키텍처의 그래프 분류에 대한 대규모의 표준화되고 재현 가능한 공정한 평가를 수행하여 그래프 토폴로지의 진정한 이점과 차수 특징의 영향을 평가한다.
Experimental reproducibility and replicability are critical topics in machine learning. Authors have often raised concerns about their lack in scientific publications to improve the quality of the field. Recently, the graph representation learning field has attracted the attention of a wide research community, which resulted in a large stream of works. As such, several Graph Neural Network models have been developed to effectively tackle graph classification. However, experimental procedures often lack rigorousness and are hardly reproducible. Motivated by this, we provide an overview of common practices that should be avoided to fairly compare with the state of the art. To counter this troubling trend, we ran more than 47000 experiments in a controlled and uniform framework to re-evaluate five popular models across nine common benchmarks. Moreover, by comparing GNNs with structure-agnostic baselines we provide convincing evidence that, on some datasets, structural information has not been exploited yet. We believe that this work can contribute to the development of the graph learning field, by providing a much needed grounding for rigorous evaluations of graph classification models.
연구 동기 및 목표
- GNN 그래프 분류 연구의 재현성 문제를 강조하고 표준화된 평가 프레임워크를 확립한다.
- 같은 데이터 분할과 동일한 노드 특징으로 다섯 가지 인기 GNN 아키텍처를 재평가한다.
- 구조 비의존 기저선을 사용하여 그래프 구조 정보가 특징에 비해 얼마나 기여하는지 평가한다.
- 사회 그래프에서 노드 차수 특징의 포함이 성능과 모델 깊이에 미치는 영향을 조사한다.
- 향후 엄밀한 비교를 가능하게 하는 공개 코드와 데이터 분할을 제공한다.
제안 방법
- 그래프 분류 연구에서 일반적으로 나타나는 재현성 문제를 검토하고 엄격한 평가 프로토콜을 정의한다.
- 모델 평가를 위해 10-fold 교차검증을 사용하고 모델 선택에는 내부적으로 90/10 분할을 적용한다.
- 모델 간에 동일한 입력 특징을 사용하고 두 개의 구조 비의존 기저선과 비교한다.
- 공정한 비교를 위해 DGCNN, DiffPool, ECC, GIN, GraphSAGE의 다섯 가지 GNN 모델을 PyTorch Geometric으로 재구현한다.
- 9개 데이터셋(4개 화학, 5개 사회)을 평가하고 평균 정확도와 표준편차를 보고한다.
- 복제를 가능하게 하도록 코드와 데이터 분할을 공개한다.
실험 결과
연구 질문
- RQ1최신 GNN이 그래프 분류 벤치마크에서 간단한 구조 비의존 기저선을 능가하는 정도는 어느 정도인가?
- RQ2성능 향상의 상당 부분이 그래프 구조에서 기인하는가, 아니면 노드 특징에서 기인하는가?
- RQ3노드 차수를 입력 특징으로 포함하는 것이 사회 그래프에서 일관되게 성능을 개선하고 필요한 모델 깊이에 영향을 주는가?
- RQ4현재 GNN이 구조 비의존 기저선을 능가하지 못하는 데이터셋이 있어 토폴로지의 활용이 과소평가되고 있는가?
주요 결과
- 여러 화학 데이터셋(D&D, PROTEINS, ENZYMES)에서 구조 비의존 기저선이 GNN보다 더 좋거나 대등하게 나타난다.
- NCI1에서 GNN은 그래프 구조를 명확하게 활용하여 기저선을 능가한다.
- 사회 데이터셋에서 노드 차수 특징의 추가가 일반적으로 성능을 향상시키고 일부 모델의 필요 깊이를 줄일 수 있다.
- GIN은 사회 데이터셋에서 강하게 작동하는 반면, 특정 화학 데이터셋에서는 기저선이 여전히 경쟁력을 유지한다.
- 차수 특징의 포함이 기저선의 성능을 크게 향상시킬 수 있으며 모델의 상대적 순위를 바꿀 수 있다.
- 본 연구는 그래프 분류에서 공정한 평가와 재현성을 위해 기저선의 중요성을 강조한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.