[논문 리뷰] Graph-less Neural Networks: Teaching Old MLPs New Tricks via Distillation
GLNN은 GNN에서 지식을 추출하여 더 큰 MLP로 압축하여 추론이 그래프 없이 더 빠르게 이루어지며, 여러 데이터셋에서 GNN과 같은 정확도를 달성합니다.
Graph Neural Networks (GNNs) are popular for graph machine learning and have shown great results on wide node classification tasks. Yet, they are less popular for practical deployments in the industry owing to their scalability challenges incurred by data dependency. Namely, GNN inference depends on neighbor nodes multiple hops away from the target, and fetching them burdens latency-constrained applications. Existing inference acceleration methods like pruning and quantization can speed up GNNs by reducing Multiplication-and-ACcumulation (MAC) operations, but the improvements are limited given the data dependency is not resolved. Conversely, multi-layer perceptrons (MLPs) have no graph dependency and infer much faster than GNNs, even though they are less accurate than GNNs for node classification in general. Motivated by these complementary strengths and weaknesses, we bring GNNs and MLPs together via knowledge distillation (KD). Our work shows that the performance of MLPs can be improved by large margins with GNN KD. We call the distilled MLPs Graph-less Neural Networks (GLNNs) as they have no inference graph dependency. We show that GLNNs with competitive accuracy infer faster than GNNs by 146X-273X and faster than other acceleration methods by 14X-27X. Under a production setting involving both transductive and inductive predictions across 7 datasets, GLNN accuracies improve over stand-alone MLPs by 12.36% on average and match GNNs on 6/7 datasets. Comprehensive analysis shows when and why GLNNs can achieve competitive accuracies to GNNs and suggests GLNN as a handy choice for latency-constrained applications.
연구 동기 및 목표
- GNN의 그래프 구조를 통한 맥락과 MLP의 빠르고 그래프-리스 추론 사이의 격차를 줄인다.
- GNN 교사에서 MLP 학생으로의 지식 증류가 그래프-리스 모델을 강한 성능으로 yield할 수 있음을 입증한다.
- 다양한 데이터셋에서 전이형, 귀납형, 생산-유사 설정에서 GLNN을 평가한다.
- GNN 및 다른 추론 가속 방법에 대한 속도 향상을 정량화하고 GLNN의 성공 요인을 분석한다.
제안 방법
- 그래프에서 소프트 타깃 z_v를 생성하기 위해 그래프에서 GNN 교사(GraphSAGE)를 학습한다.
- 교차 엔트로피 손실과 교사의 소프트 타깃에 대한 KL-발산(지식 증류)을 결합한 손실로 학생 MLP를 학습한다.
- 결과 GLNN을 배포한다. 추론 시 그래프 종속성이 없는 MLP이다.
- 다양한 데이터셋에서 전이형, 귀납형, 생산 설정으로 GLNN을 평가한다.
- 모델 크기, 특징과 레이블 간 상호 정보, KD를 통한 정규화가 성능에 미치는 영향을 연구한다.
- MLP, GNN 및 가지치기, 양자화, 이웃 샘플링과 같은 다른 추론 가속 방법과 비교한다.
실험 결과
연구 질문
- RQ1GNN에서 MLP로의 KD가 그래프-리스 모델을 경쟁력 있는 정확도로 생성할 수 있는가?
- RQ2GLNN이 전이형과 귀납형 설정 및 생산-유사 상황에서 어떻게 수행하는가?
- RQ3모델 크기, 상호 정보, 귀납 편향 같은 요인이 GLNN의 성능 향상을 이끄는가?
- RQ4GLNN은 지연 및 정확도 면에서 전통적 추론 가속 방법과 어떻게 비교되는가?
- RQ5그래프 기반 작업에서 GLNN의 한계와 실패 사례는 무엇인가?
주요 결과
| Dataset | SAGE | MLP | GLNN | ΔMLP | ΔGNN |
|---|---|---|---|---|---|
| Cora | 80.52 ± 1.77 | 59.22 ± 1.31 | 80.54 ± 1.35 | 21.32 (36.00%) | 0.02 (0.02%) |
| Citeseer | 70.33 ± 1.97 | 59.61 ± 2.88 | 71.77 ± 2.01 | 12.16 (20.40%) | 1.44 (2.05%) |
| Pubmed | 75.39 ± 2.09 | 67.55 ± 2.31 | 75.42 ± 2.31 | 7.87 (11.65%) | 0.03 (0.04%) |
| A-computer | 82.97 ± 2.16 | 67.80 ± 1.06 | 83.03 ± 1.87 | 15.23 (22.46%) | 0.06 (0.07%) |
| A-photo | 90.90 ± 0.84 | 78.77 ± 1.74 | 92.11 ± 1.08 | 13.34 (16.94%) | 1.21 (1.33%) |
| Arxiv | 70.92 ± 0.17 | 56.05 ± 0.46 | 63.46 ± 0.45 | 7.41 (13.24%) | -7.46 (-10.52%) |
| Products | 78.61 ± 0.49 | 62.47 ± 0.10 | 68.86 ± 0.46 | 6.39 (10.23%) | -9.75 (-12.4%) |
- GLNN은 유사한 크기의 MLP를 상당히 능가하고 여러 데이터셋에서 GNN의 성능과 일치하거나 근접합니다.
- GLNN은 일반 GNN 대비 146×–273× 더 빠른 추론을 달성하고 다른 가속 방법보다 14×–27× 빠릅니다.
- 전이형과 귀납형 예측을 모두 포함하는 생산-유사 설정에서 GLNN은 평균적으로 MLP보다 12.36% 향상하며 6/7 데이터셋에서 GNN과 일치합니다.
- MLP의 폭을 확장하면 GLNN이 더 큰 데이터셋에서 GNN과의 간극을 좁히고 표준 MLP에 비해 큰 이점을 유지합니다.
- KD는 정규화 역할을 하며 MLP에 그래프 인지적 편향을 주입하여 노드 특징이 정보적일 때 성능을 돕습니다.
- GLNN은 다양한 교사 아키텍처에서도 경쟁력 있는 성능을 유지하고 여러 설정에 대해 강건하지만, 특정 Arxiv 분포와 같은 일부 도전적인 분할에서 이득이 제한됩니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.