Skip to main content
QUICK REVIEW

[논문 리뷰] InfoGraph: Unsupervised and Semi-supervised Graph-Level Representation Learning via Mutual Information Maximization

Fan-Yun Sun, Jordan Hoffmann|arXiv (Cornell University)|2019. 07. 31.
Advanced Graph Neural Networks참고 문헌 72인용 수 147
한 줄 요약

InfoGraph는 그래프 수준 표현과 다중 스케일 부분구조 간의 상호정보를 최대화하여 고정 길이 그래프 임베딩을 학습하고; InfoGraph*은 라벨이 없는 데이터를 활용하기 위한 준지도 학습으로 확장합니다.

ABSTRACT

This paper studies learning the representations of whole graphs in both unsupervised and semi-supervised scenarios. Graph-level representations are critical in a variety of real-world applications such as predicting the properties of molecules and community analysis in social networks. Traditional graph kernel based methods are simple, yet effective for obtaining fixed-length representations for graphs but they suffer from poor generalization due to hand-crafted designs. There are also some recent methods based on language models (e.g. graph2vec) but they tend to only consider certain substructures (e.g. subtrees) as graph representatives. Inspired by recent progress of unsupervised representation learning, in this paper we proposed a novel method called InfoGraph for learning graph-level representations. We maximize the mutual information between the graph-level representation and the representations of substructures of different scales (e.g., nodes, edges, triangles). By doing so, the graph-level representations encode aspects of the data that are shared across different scales of substructures. Furthermore, we further propose InfoGraph*, an extension of InfoGraph for semi-supervised scenarios. InfoGraph* maximizes the mutual information between unsupervised graph representations learned by InfoGraph and the representations learned by existing supervised methods. As a result, the supervised encoder learns from unlabeled data while preserving the latent semantic space favored by the current supervised task. Experimental results on the tasks of graph classification and molecular property prediction show that InfoGraph is superior to state-of-the-art baselines and InfoGraph* can achieve performance competitive with state-of-the-art semi-supervised models.

연구 동기 및 목표

  • 무감독 및 준지도 설정에서 잘 작동하는 그래프 수준 표현 학습의 동기 부여.
  • 수동으로 설계된 그래프 커널과 서브트리 중심 임베딩의 한계를 극복.
  • 그래프 분류 및 분자 특성 예측에 적합한 표현을 가능하게.
  • 그래프 간의 공유 구조를 포착하기 위해 다중 스케일 패치 정보를 활용합니다.

제안 방법

  • 그래프의 글로벌 표현과 다중 스케일 패치 표현 간의 상호정보를 최대화합니다.
  • 노드/패치 임베딩을 얻고 글로벌 그래프 표현을 형성하기 위해 Graph Isomorphism Network (GIN) 인코더와 READOUT을 사용합니다.
  • 레이어 간 패치 표현을 연결해 다중 스케일 특징을 형성하고 Jensen-Shannon MI 추정기로 최적화합니다.
  • 효과적인 대조 학습을 위해 배치 단위 음수 샘플링을 사용해 다수의 양의/음의 쌍을 생성합니다.
  • InfoGraph*은 두 개의 인코더(감독/비감독)를 도입하고 중간 표현 간 상호정보를 최대화하여 지식을 전달합니다.
  • Discriminator Tψ는 (글로벌, 패치) 쌍의 MI를 추정하기 위해 점수를 매깁니다(Eq. 4); 공개는 배치 단위 샘플링과 MI 추정(Eq. 5)을 참조합니다.

실험 결과

연구 질문

  • RQ1그래프 수준 표현과 부분구조 수준 표현 간의 상호정보 최대화가 효과적인 무감독 그래프 임베딩을 낳을 수 있는가?
  • RQ2준지도 학생-교사 스타일 프레임워크(InfoGraph*)를 도입하면 분자 특성 예측의 성능이 향상되는가?
  • RQ3InfoGraph가 표준 벤치마크에서 기존 그래프 커널 및 선행 무감독 그래프 표현 방법과 어떻게 비교되는가?
  • RQ4다중 스케일 패치 표현이 그래프 수준 임베딩의 품질에 미치는 영향은 무엇인가?

주요 결과

MethodMUTAGPTC-MRREDDIT-BREDDIT-M5KIMDB-BIMDB-M
RW83.72±1.5057.85±1.30OMROMR50.68±0.2634.65±0.19
SP85.22±2.4358.24±2.4464.11±0.1439.55±0.2255.60±0.2237.99±0.30
GK81.66±2.1157.26±1.4177.34±0.1841.01±0.1765.87±0.9843.89±0.38
WL80.72±3.0057.97±0.4968.82±0.4146.06±0.2172.30±3.4446.95±0.46
DGK87.44±2.7260.08±2.5578.04±0.3941.27±0.1866.96±0.5644.55±0.52
MLG87.94±1.6163.26±1.48 >1 Day >1 Day66.55±0.2541.17±0.03
node2vec72.63±10.2058.58±8.00----
sub2vec61.05±15.8059.99±6.3871.48±0.4136.68±0.4255.26±1.5436.67±0.83
graph2vec83.15±9.2560.17±6.8675.78±1.0347.86±0.2671.1±0.5450.44±0.87
InfoGraph89.01±1.1361.65±1.4382.50±1.4253.46±1.0373.03±0.8749.69±0.53
  • InfoGraph는 6개 벤치마크 데이터 중 4개에서 다수의 최첨단 그래프 커널보다 우수하며 나머지 데이터셋에서도 높은 경쟁력을 보입니다.
  • 준지도 분자 특성 예측에서 InfoGraph*은 12개 대상 중 11개에서 최상의 결과를 달성하며 대부분의 경우 Mean Teacher를 능가합니다.
  • InfoGraph는 비감독 MI 기반 학습과 배치 단위 음수 샘플링, GIN 인코더를 결합해 강력한 그래프 수준 표현을 생성합니다.
  • InfoGraph는 무감독 및 준지도 학습 패러다임을 사용한 그래프 분류 및 분자 특성 예측에 대해 경쟁력 있는 성능을 보여줍니다.
  • 이 논문은 Naive한 공동 목적에 의한 음의 전달 현상을 다루는 InfoGraph*의 두 인코더 및 MI 기반 정렬(Eq. 8)로 해결합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.