[논문 리뷰] Learning Graph-Level Representation for Drug Discovery
더미 슈퍼 노드를 모든 원자에 연결하고 수정된 그래프 합성(convolutions)을 사용하여 분자 특성 예측을 위한 그래프 수준 표현 학습 방법을 제안하여 그래프 수준 분류/회귀를 가능하게 하고 데이터 불균형을 focal 손실로 해결한다.
Predicating macroscopic influences of drugs on human body, like efficacy and toxicity, is a central problem of small-molecule based drug discovery. Molecules can be represented as an undirected graph, and we can utilize graph convolution networks to predication molecular properties. However, graph convolutional networks and other graph neural networks all focus on learning node-level representation rather than graph-level representation. Previous works simply sum all feature vectors for all nodes in the graph to obtain the graph feature vector for drug predication. In this paper, we introduce a dummy super node that is connected with all nodes in the graph by a directed edge as the representation of the graph and modify the graph operation to help the dummy super node learn graph-level feature. Thus, we can handle graph-level classification and regression in the same way as node-level classification and regression. In addition, we apply focal loss to address class imbalance in drug datasets. The experiments on MoleculeNet show that our method can effectively improve the performance of molecular properties predication.
연구 동기 및 목표
- 노드 수준의 특징을 넘어서 분자 특성 예측에서 그래프 수준 표현의 필요성을 동기부여한다.
- 로컬 노드 표현을 변화시키지 않으면서 그래프 수준 특징을 학습하기 위한 더미 슈퍼 노드를 도입한다.
- 그래프 수준 학습을 지원하기 위해 그래프 합성 연산과 정규화를 수정한다.
- 약물 데이터세트의 클래스 불균형을 focal loss를 사용해 해결한다.
- 독성, 활성도, 용해도 과제 전반에서 MoleculeNet 데이터세트에 대해 성능 향상을 보여준다.
제안 방법
- 그래프 수준 특징 학습을 위해 모든 원자에 방향성 간선을 가진 더미 슈퍼 노드 S를 추가한다.
- S가 전역 정보를 모으면서 로컬 노드 특징을 보존하도록 표준 GraphConv 및 GraphPool 연산을 수정한다.
- 다양한 분자 크기를 다루기 위해 노드 수준 배치 정규화를 적용한다.
- 더미 노드의 특징으로 입력되는 두 층 분류기를 사용해 그래프 수준 예측을 한다.
- 불균형 데이터셋의 클래스 불균형을 다루기 위해 교차 엔트로피를 focal loss로 대체한다.
- 다양한 데이터 분할(Index, Random, Scaffold)로 MoleculeNet 데이터세트(Tox21, ToxCast, HIV, MUV, PCBA, FreeSolv)를 평가한다.
실험 결과
연구 질문
- RQ1더미 슈퍼 노드가 분자의 효과적인 그래프 수준 표현 학습을 가능하게 할 수 있는가?
- RQ2제안된 그래프 수준 접근법이 MoleculeNet에서 표준 GraphConv보다 분자 특성 예측을 개선하는가?
- RQ3불균형한 약물 데이터세트에서 focal loss가 성능에 어떤 영향을 미치는가?
- RQ4다양한 데이터 분할(Index, Random, Scaffold)이 그래프 수준 작업의 모델 일반화에 어떤 영향을 미치는가?
주요 결과
- 더미 슈퍼 노드는 그래프 수준 학습을 가능하게 하고 여러 MoleculeNet 데이터세트에서 표준 GraphConv보다 성능을 개선한다.
- 분류 과제(Tox21, ToxCast, MUV, PCBA)에서 제안된 방법은 ECFP+LR 및 표준 GraphConv보다 더 높은 AUC를 보이며 평균 향상은 약 1.5%이다.
- HIV 데이터세트에서는 focal loss를 적용하면 특히 불균형 조건에서 추가적인 성능 향상이 있다.
- 회귀 과제(FreeSolv)에서 이 방법은 일반적으로 GraphConv보다 우수하며 특히 index와 random 분할에서 두드러지지만 scaffold 분할은 일반화가 더 어렵다.
- 노드 수준 배치 정규화와 배치 정규화 이전의 ReLU가 그래프 수준 학습의 학습 안정성에 기여한다.
- 이 방법은 특정 분할 및 데이터세트에서 ab-initio 방법과의 경쟁력 또는 우수성을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.