QUICK REVIEW

[논문 리뷰] Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation

Jiaxuan You, Bowen Liu|arXiv (Cornell University)|2018. 06. 06.

Machine Learning in Materials Science참고 문헌 34인용 수 445

한 줄 요약

GCPN은 강화학습 및 적대적 손실로 학습되는 그래프 컨볼루션 정책 네트워크를 도입하여 화학 규칙을 준수하면서 목표 특성을 최적화하는 분자 그래프를 생성한다.

ABSTRACT

Generating novel graph structures that optimize given objectives while obeying some given underlying rules is fundamental for chemistry, biology and social science research. This is especially important in the task of molecular graph generation, whose goal is to discover novel molecules with desired properties such as drug-likeness and synthetic accessibility, while obeying physical laws such as chemical valency. However, designing models to find molecules that optimize desired properties while incorporating highly complex and non-differentiable rules remains to be a challenging task. Here we propose Graph Convolutional Policy Network (GCPN), a general graph convolutional network based model for goal-directed graph generation through reinforcement learning. The model is trained to optimize domain-specific rewards and adversarial loss through policy gradient, and acts in an environment that incorporates domain-specific rules. Experimental results show that GCPN can achieve 61% improvement on chemical property optimization over state-of-the-art baselines while resembling known molecules, and achieve 184% improvement on the constrained property optimization task.

연구 동기 및 목표

원하는 특성을 가진 분자를 설계하기 위해 크고 이산적인 화학 공간을 탐색해야 한다는 필요성을 제시한다.
환경 다이내믹스를 통해 강한 화학 제약을 통합할 수 있는 그래프 기반 생성 프레임워크를 제안한다.
도메인 특성 속성을 직접 최적화하면서도 현실적인 상태를 유지하기 위해 강화학습과 적대적 학습을 활용한다.

제안 방법

분자를 그래프로 표현하고 노드/결합을 추가하는 동작을 통해 반복적으로 생성한다.
화학 인식을 갖춘 환경을 이용해 분자 생성을 마르코프 결정 프로세스로 공식화한다.
확장 그래프 위에서 노드 임베딩을 계산하고 동작을 예측하기 위해 Graph Convolutional Network를 사용한다.
도메인 특성으로부터의 보상과 판별기로부터의 적대적 손실을 결합한 보상을 최적화하기 위해 PPO 정책 그래프를 적용한다.
학습 부트스트랩과 안정성 향상을 위해 전문가 프리트레이닝을 도입한다.

실험 결과

연구 질문

RQ1그래프 기반 RL 에이전트가 화학적 타당성 제약을 준수하면서 도메인 특성에 최적화된 분자를 생성하도록 학습할 수 있는가?
RQ2분자 판별기를 통한 적대적 학습이 속성을 최적화하면서 생성된 분자의 현실성과 타당성을 향상시키는가?
RQ3속성 최적화, 타깃팅 및 제약 최적화 작업에서 그래프 기반 접근법이 최첨단 기준선과 어떻게 비교되는가?

주요 결과

Method	Penalized logP (1st)	Penalized logP (2nd)	Penalized logP (3rd)	Validity (Penalized logP)	QED (1st)	QED (2nd)	QED (3rd)	Validity (QED)
ZINC	4.52	4.30	4.23	100.0%	0.948	0.948	0.948	100.0%
Hill Climbing	-	-	-	-	0.838	0.814	0.814	100.0%
ORGAN	3.63	3.49	3.44	0.4%	0.896	0.824	0.820	2.2%
JT-VAE	5.30	4.93	4.49	100.0%	0.925	0.911	0.910	100.0%
GCPN	7.98	7.85	7.80	100.0%	0.948	0.947	0.946	100.0%

GCPN은 penalized logP에서 최고 기준선 대비 화학 속성 최적화에서 평균 61%의 향상, 제한된 속성 최적화에서 평균 184%의 향상을 달성한다.
GCPN은 태스크 전반에서 거의 완벽한 타당성(100.0%)과 현실적인 분자와의 강한 유사성을 보인다.
속성 타깃팅에서 GCPN은 성공율과 다양성 면에서 기준선보다 크게 우수하다.
ZINC 데이터셋에서 여러 목적에 대해 보고된 지표들에서 GCPN은 JT-VAE 및 ORGAN을 능가한다.
그래프 기반 표현은 단계별 원자 수 검사를 가능하게 하여 보고된 결과에서 100% 타당성을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.