QUICK REVIEW

[논문 리뷰] Large-Scale Representation Learning on Graphs via Bootstrapping

Shantanu Thakoor, Corentin Tallec|arXiv (Cornell University)|2021. 02. 12.

Advanced Graph Neural Networks참고 문헌 46인용 수 30

한 줄 요약

BGRL은 온라인 인코더와 타깃 인코더를 사용해 두 개의 증강 그래프 뷰 간에 부트스트래핑을 수행하며 음수 없이 작동하는 self-supervised 학습으로, 2-10x 더 적은 메모리로 이전 방법과 동일하거나 그보다 뛰어난 성능을 달성합니다. 대규모 그래프에서도 확장 가능하며 수백만 개 노드를 가진 그래프에서도 최첨단 결과를 달성합니다.

ABSTRACT

Self-supervised learning provides a promising path towards eliminating the need for costly label information in representation learning on graphs. However, to achieve state-of-the-art performance, methods often need large numbers of negative examples and rely on complex augmentations. This can be prohibitively expensive, especially for large graphs. To address these challenges, we introduce Bootstrapped Graph Latents (BGRL) - a graph representation learning method that learns by predicting alternative augmentations of the input. BGRL uses only simple augmentations and alleviates the need for contrasting with negative examples, and is thus scalable by design. BGRL outperforms or matches prior methods on several established benchmarks, while achieving a 2-10x reduction in memory costs. Furthermore, we show that BGRL can be scaled up to extremely large graphs with hundreds of millions of nodes in the semi-supervised regime - achieving state-of-the-art performance and improving over supervised baselines where representations are shaped only through label information. In particular, our solution centered on BGRL constituted one of the winning entries to the Open Graph Benchmark - Large Scale Challenge at KDD Cup 2021, on a graph orders of magnitudes larger than all previously available benchmarks, thus demonstrating the scalability and effectiveness of our approach.

연구 동기 및 목표

그래프에서 비용이 많이 드는 라벨 의존도를 줄이기 위한 자기지도 표현 학습 추진.
대규모 그래프에서 대조 방법의 메모리 및 계산 병목 해결.
음수 샘플이 필요 없는 확장 가능한 부트스트래핑 접근 방식 제안.
표준 벤치마크 및 매우 큰 그래프에서의 성능 및 확장성 입증.

제안 방법

두 개의 그래프 인코더를 사용: 온라인 인코더 E_theta와 타깃 인코더 E_phi.
입력 그래프의 두 가지 증강 뷰를 간단한 섭동(노드 특징 마스킹 및 엣지 마스킹)으로 생성.
온라인 인코더가 타깃 표현을 예측하도록 예측기 p_theta와 코사인 유사도 손실로 학습하며, 타깃 인코더는 온라인 인코더의 지수 이동 평균으로 업데이트됩니다.”
BYOL 스타일의 일부 방법에서 사용하는 투영 헤드를 제거합니다; 임베딩 크기는 그래프 크기에 따라 작고 선형으로 확장됩니다.
업데이트별 선형 시간/공간 복잡성을 강조하고 대조 방법에서 일반적으로 발생하는 이차원 모든 쌍 음수들을 피합니다.
이웃 샘플링과 반지도 신호를 사용하여 MAG240M과 같은 매우 큰 그래프에서 확장 가능성을 시연합니다.

실험 결과

연구 질문

RQ1비대조 성능 self-supervised 그래프 방법과 정확도에서 메모리 사용량을 줄이면서도 비대조 부트스트랩 방식이 따라잡거나 능가할 수 있나요?
RQ2음수 샘플이 필요 없는 확장 가능하고 고성능의 그래프 표현 학습을 위해 간단한 그래프 증강이 충분한가요?
RQ3중간 규모에서 매우 큰 규모의 그래프를 포함한 반지도 설정에서 BGRL의 성능은 어떤가요?
RQ4큰 그래프에서 BGRL과 대조 방법 사이의 메모리-시간 트레이드오프는 어떻게 되나요?

주요 결과

BGRL은 여러 표준 벤치마크에서 이전 방법들과 비교해 경쟁적이거나 우수한 성능을 보이면서도 메모리를 2-10x 적게 사용합니다.
이 방법은 MAG240M(노드 2억 4천만 개, 간선 17억 개)을 포함한 매우 큰 그래프로 확장 가능하며, 강력한 검증 및 테스트 성능을 달성합니다.
BGRL은 반지도 설정에서 효과적이며 라벨이 없는 데이터의 이점을 활용하여 MAG240M에서 완전 지도 기반 벤치마크를 개선합니다.
ogbn-arXiv에서, 서브샘플링이 있는 BGRL은 메모리 제약 하에서도 GRACE와 경쟁하거나 이를 능가하여 전체 그래프 대조 손실의 확장성 이점을 보여줍니다.
PPI에서 GAT 인코더를 사용한 BGRL은 최첨단 성능을 달성하여 주의 기반 모델과의 부트스트래핑의 이점을 강조합니다.
대조 방법과 비교할 때, BGRL은 음수 샘플링을 전혀 사용하지 않으며, 그래프 크기에 따라 선형으로 확장되는 메모리 및 시간 복잡성을 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.