[논문 리뷰] Self-supervised Heterogeneous Graph Pre-training Based on Structural Clustering
SHGP는 양의 예시나 음수 예시를 필요로 하지 않는 이종 정보 네트워크를 위한 자기지도 학습 프레이워크를 제안하며, 이중 Att-HGNN 및 Att-LPA 구성으로 임베딩을 구조적 클러스터링을 통해 반복적으로 정제합니다.
Recent self-supervised pre-training methods on Heterogeneous Information Networks (HINs) have shown promising competitiveness over traditional semi-supervised Heterogeneous Graph Neural Networks (HGNNs). Unfortunately, their performance heavily depends on careful customization of various strategies for generating high-quality positive examples and negative examples, which notably limits their flexibility and generalization ability. In this work, we present SHGP, a novel Self-supervised Heterogeneous Graph Pre-training approach, which does not need to generate any positive examples or negative examples. It consists of two modules that share the same attention-aggregation scheme. In each iteration, the Att-LPA module produces pseudo-labels through structural clustering, which serve as the self-supervision signals to guide the Att-HGNN module to learn object embeddings and attention coefficients. The two modules can effectively utilize and enhance each other, promoting the model to learn discriminative embeddings. Extensive experiments on four real-world datasets demonstrate the superior effectiveness of SHGP against state-of-the-art unsupervised baselines and even semi-supervised baselines. We release our source code at: https://github.com/kepsail/SHGP.
연구 동기 및 목표
- 레이블이 없는 데이터에서 이종 정보 네트워크(HINs)에서 유용한 노드 임베딩 학습의 동기를 부여한다.
- 그래프용 SSL에서 일반적으로 사용되는 핸드크래프트된 양/음 예시 전략에 대한 의존성을 제거한다.
- 임베딩 학습을 안내하고 반대로 구조적 클러스터링이 임베딩 학습을 이끄는 이중 모듈 프레임워크를 제안한다.
- 분류 및 클러스터링과 같은 다운스트림 작업을 개선하는 전이 가능한 임베딩을 시연한다.
제안 방법
- 두 상호 작용 모듈을 도입한다: Att-HGNN(주의 기반 이종 GNN 인코더)와 Att-LPA(동일한 주의 가중치를 사용한 라벨 전파를 통한 구조적 클러스터링).
- 초기 LPA 클러스터링을 더미 레이블로 사용해 Att-HGNN을 워밍업하고, 그런 다음 공유된 주의 계수를 사용해 임베딩과 더미 레이블을 반복적으로 업데이트한다.
- Att-HGNN의 예측과 Att-LPA가 생성한 더미 레이블 간의 교차 엔트로피 손실로 학습한다.
- Att-HGNN과 Att-LPA 사이에 동일한 주의 집계 체계를 공유해 상호 향상을 가능하게 한다.
- 효율성과 성능 이점을 고려해 ie-HGCN을 Att-HGNN의 기본 인코더로 채택한다.
- 노드와 엣지의 거의 선형 시간 복잡도로 분석한다(O(|V|+|E|)).
실험 결과
연구 질문
- RQ1HIN에서 자기지도 사전 학습을 아무 양의/음의 예시 생성 없이 수행할 수 있는가?
- RQ2구조적 클러스터링을 주의 기반 HGNN에 통합해 구별 가능한 임베딩을 생성할 수 있는가?
- RQ3SHGP로 학습된 임베딩이 분류 및 클러스터링과 같은 다운스트림 작업으로 다수의 데이터셋에서 효과적으로 전이되는가?
- RQ4더미 레이블 전파를 임베딩 학습과 정렬하는 것이 이종 그래프에서의 기존 SSL 방법에 비해 일반화를 향상시키는가?
주요 결과
- SHGP는 네 가지 실제 데이터셋에서 최첨단의 비지도 기준선과 심지어 일부 반지도 기반 기준선과 비교해 우수하거나 경쟁력 있는 성능을 달성한다.
- 구조적 클러스터링에 의해 이끄는 더미 레이블을 사용한 Att-LPA가 Att-HGNN이 더 나은 임베딩과 주의 계수를 학습하도록 하여 판별력을 향상시킨다.
- SHGP는 강력한 객체 분류 성능과 클러스터링 품질을 보여주며, 양/음성 샘플 전략에 의존하는 기준선보다 종종 우수하다.
- 사전 학습된 임베딩의 다운스트림 작업으로의 전이 가능성이 강하다는 것을 시연하여 학습 표현의 일반화가 좋음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.