QUICK REVIEW

[논문 리뷰] MolecularRNN: Generating realistic molecular graphs with optimized properties

Mariya Popova, Mykhailo Shvets|arXiv (Cornell University)|2019. 05. 31.

Computational Drug Discovery Methods참고 문헌 22인용 수 55

한 줄 요약

MolecularRNN은 밸런시 제약을 가진 원자 단위로 분자 그래프를 구성하는 그래프 순환 생성 모델로, 100% 유효성을 달성하고 정책 기울기 강화 학습을 통해 특성 최적화를 가능하게 한다.

ABSTRACT

Designing new molecules with a set of predefined properties is a core problem in modern drug discovery and development. There is a growing need for de-novo design methods that would address this problem. We present MolecularRNN, the graph recurrent generative model for molecular structures. Our model generates diverse realistic molecular graphs after likelihood pretraining on a big database of molecules. We perform an analysis of our pretrained models on large-scale generated datasets of 1 million samples. Further, the model is tuned with policy gradient algorithm, provided a critic that estimates the reward for the property of interest. We show a significant distribution shift to the desired range for lipophilicity, drug-likeness, and melting point outperforming state-of-the-art works. With the use of rejection sampling based on valency constraints, our model yields 100% validity. Moreover, we show that invalid molecules provide a rich signal to the model through the use of structure penalty in our reinforcement learning pipeline.

연구 동기 및 목표

현실적인 그래프 기반 생성으로 새로운 분자 설계를 자극한다.
추론 중 화학적 밸런시를 존중하는 그래프 기반 생성기를 개발한다.
강화 학습을 통해 생성된 분자의 특성 최적화를 가능하게 한다.
생성된 분자에 대한 대규모 분석을 제공하고 최첨단 방법과 비교한다.

제안 방법

GraphRNN을 원자 노드 타입과 결합 차수의 간선 타입을 갖는 분자 그래프로 확장한다.
접근 예측을 제한하기 위해 BFS 순서를 사용하고 간선 예측에서 M=12로 설정한다.
추론 시 100%의 화학적 유효성을 보장하기 위해 밸런시 기반 거절 샘플링을 적용한다.
학습 중 구조적 패널티를 도입하여 잘못된 중간 구조를 학습 신호로 활용한다.
타깃 특성(logP pen, QED, melting temperature)을 최적화하기 위해 크리틱이 있는 정책 기울기를 사용한다.
현실적인 분포를 학습하기 위해 대규모 분자 데이터세트(ChEMBL, ZINC 250k, MOSES)에서 비지도 사전 학습한다.

실험 결과

연구 질문

RQ1그래프 기반 생성기가 실제 화학 공간을 닮은 다양하고 유효하며 참신한 분자 그래프를 생성할 수 있는가?
RQ2밸런시 기반 거절 샘플링이 다양성을 해치지 않으면서 추론 시 100%의 유효한 분자를 산출하는가?
RQ3강화 학습이 생성 분자의 분포를 logP pen, QED, melting temperature 같은 정의된 특성 범주로 이동시킬 수 있는가?
RQ4밸런시 위반으로부터의 구조적 패널리를 학습 신호로 활용하면 학습 신호와 최종 유효성에 도움이 되는가?
RQ5MolecularRNN은 대규모 생성 및 특성 최적화 작업에서 최첨단 방법과 어떻게 비교되는가?

주요 결과

대규모 데이터셋에 대한 비지도 가능도 학습은 높은 유효성 및 다양성을 산출하며, 밸런시 적용 전 65%의 유효성, 구조적 패널티 후 최대 90%, 밸런시 기반 거절 샘플링으로 100%에 도달한다.
100만 개의 생성 분자에서 MolecularRNN은 높은 유효성(100%), 데이터 세트 전반에서 최대치에 근접한 고유성 및 참신성, 그리고 경쟁력 있는 내부 다양성 및 약물유사성 지표를 달성한다.
JT-VAE 및 GCPN과 비교하면, MolecularRNN은 유효성과 참신성이 비슷하면서 합성 접근 가능성 점수가 더 낮고 강력한 내부 다양성을 보인다.
정책 기울기 최적화는 분포를 더 높은 penalized logP와 QED 쪽으로 이동시키며, 상위 분자 점수 및 분포 변화(QED)에서 기본 baselines를 능가한다.
융점 최적화는 방향족 융합 및 극성 기를 촉진함으로써 Tm을 증가시키는 것을 모델이 학습할 수 있음을 보여주며, 보상으로 그래프-컨볼루션 예측기를 사용한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.