QUICK REVIEW

[논문 리뷰] MoCL: Contrastive Learning on Molecular Graphs with Multi-level Domain Knowledge

Mengying Sun, Jing Xing|arXiv (Cornell University)|2021. 06. 05.

Machine Learning in Materials Science인용 수 5

한 줄 요약

MoCL는 다중 수준의 도메인 지식—지역 수준의 지침을 통한 의미 유지 증강과 전역 수준의 유사성 모델링—을 통합한 새로운 대비 학습 프레임워크를 제안한다. 이는 동일한 그래프의 증강된 뷰 간의 일치를 최대화하고, 유사한 그래프 간의 유사성을 동시에 최적화하는 双대 대비 목표함수를 통해 선형 및 준지도 학습 설정에서 다양한 분자의 기준 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성한다.

ABSTRACT

Recent years have seen a rapid growth of utilizing graph neural networks (GNNs) in the biomedical domain for tackling drug-related problems. However, like any other deep architectures, GNNs are data hungry. While requiring labels in real world is often expensive, pretraining GNNs in an unsupervised manner has been actively explored. Among them, graph contrastive learning, by maximizing the mutual information between paired graph augmentations, has been shown to be effective on various downstream tasks. However, the current graph contrastive learning framework has two limitations. First, the augmentations are designed for general graphs and thus may not be suitable or powerful enough for certain domains. Second, the contrastive scheme only learns representations that are invariant to local perturbations and thus does not consider the global structure of the dataset, which may also be useful for downstream tasks. Therefore, in this paper, we study graph contrastive learning in the context of biomedical domain, where molecular graphs are present. We propose a novel framework called MoCL, which utilizes domain knowledge at both local- and global-level to assist representation learning. The local-level domain knowledge guides the augmentation process such that variation is introduced without changing graph semantics. The global-level knowledge encodes the similarity information between graphs in the entire dataset and helps to learn representations with richer semantics. The entire model is learned through a double contrast objective. We evaluate MoCL on various molecular datasets under both linear and semi-supervised settings and results show that MoCL achieves state-of-the-art performance.

연구 동기 및 목표

일반적인 그래프 증강 기법이 생물의학 분야의 그래프 대비 학습에서 가지는 한계를 해결하기 위해.
지역 및 전역 수준에서 도메인 특화 지식을 통합하여 표현 학습을 향상시키기 위해.
증강 과정에서 의미를 유지하면서도 전역적인 구조적 유사성을 포착하는 대비 프레임워크를 설계하기 위해.
지역 수준의 불변성과 전역 수준의 의미적 일치를 동시에 최적화하는 이중 대비 목표함수를 개발하기 위해.
실제 설정에서 다양한 분자의 성질 예측 작업에 대해 MoCL의 효과성을 평가하기 위해.

제안 방법

증강 과정에서 의미 유지 보장을 위해 지역 수준의 도메인 지식을 활용하여 그래프 증강을 이끌어낸다.
데이터셋 내 모든 그래프 간의 쌍별 유사성을 모델링하기 위해 전역 수준의 도메인 지식을 활용하여 더 넓은 구조적 패턴을 포착한다.
동일한 그래프의 증강된 뷰 간 일치와 데이터셋 내 유사한 그래프 간의 유사성을 동시에 최대화하는 이중 대비 손실을 설계한다.
그래프 신경망을 사용하여 분자의 그래프를 잠재 표현으로 인코딩하고, 이는 이중 대비 목표함수를 통해 최적화된다.
하류 성능 평가를 위해 선형 및 준지도 학습 미세조정 설정 모두에서 프레임워크를 적용한다.
대조 단계 동안 레이블이 필요한 데이터 없이도 기존의 분자의 그래프 데이터를 활용하여 표현을 사전 학습한다.

실험 결과

연구 질문

RQ1지역 수준의 도메인 지식을 통합하면 분자의 그래프 대비 학습에서 증강 품질이 향상되는가?
RQ2전역 수준의 그래프 유사성 모델링은 학습된 표현의 의미적 풍부성을 향상시키는가?
RQ3이중 대비 목표함수는 표준 대비 학습 대비 하류 성능에서 어떻게 비교되는가?
RQ4MoCL은 다양한 분자의 그래프 데이터셋과 학습 설정에서 얼마나 잘 일반화되는가?
RQ5사전 학습 단계에서 레이블 데이터가 필요 없이 MoCL이 분자의 성질 예측에서 최신 기술 수준(SOTA) 성능을 달성할 수 있는가?

주요 결과

MoCL은 선형 및 준지도 학습 설정 모두에서 여러 분자의 그래프 기준 데이터셋에서 최신 기술 수준(SOTA) 성능을 달성한다.
지역 수준의 도메인 지식 통합은 더 의미 있고 의미적으로 일관된 그래프 증강을 이끌어낸다.
전역 수준의 유사성 모델링은 데이터셋 내 더 넓은 구조적 관계를 포착함으로써 표현 품질을 크게 향상시킨다.
이중 대비 목표함수는 지역 수준의 불변성과 전역 수준의 일관성을 동시에 최적화함으로써 표준 대비 학습을 능가한다.
MoCL은 다양한 분자의 데이터셋에 걸쳐 강력한 일반화 성능을 보이며, 이는 안정성과 확장성의 잠재력을 시사한다.
제한된 레이블 데이터 조건에서도 뛰어난 성능을 달성함으로써, 비지도 사전 학습 전략의 효과성을 입증한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.