QUICK REVIEW

[논문 리뷰] MolecularRNN: Generating realistic molecular graphs with optimized properties

Mariya Popova, Mykhailo Shvets|arXiv (Cornell University)|2019. 05. 30.

Computational Drug Discovery Methods인용 수 67

한 줄 요약

MolecularRNN은 그래프 순환 모델로 현실적인 분자 그래프를 생성하며, 원자 밸런시 기반 거부 샘플링으로 100% 유효성을 달성하고, 정책 기울기 강화 학습으로 특성 최적화를 달성한다.

ABSTRACT

Designing new molecules with a set of predefined properties is a core problem in modern drug discovery and development. There is a growing need for de-novo design methods that would address this problem. We present MolecularRNN, the graph recurrent generative model for molecular structures. Our model generates diverse realistic molecular graphs after likelihood pretraining on a big database of molecules. We perform an analysis of our pretrained models on large-scale generated datasets of 1 million samples. Further, the model is tuned with policy gradient algorithm, provided a critic that estimates the reward for the property of interest. We show a significant distribution shift to the desired range for lipophilicity, drug-likeness, and melting point outperforming state-of-the-art works. With the use of rejection sampling based on valency constraints, our model yields 100% validity. Moreover, we show that invalid molecules provide a rich signal to the model through the use of structure penalty in our reinforcement learning pipeline.

연구 동기 및 목표

원자를 노드로, 결합을 엣지로 직접 모델링하는 그래프 기반 분자 구조 생성기를 개발한다.
추론 및 학습 중 원밸런시 기반 제약으로 화학적 유효성을 보장한다.
평가자를 포함한 강화 학습으로 분자 특성(logP, QED, 녹는점 등)의 최적화를 가능하게 한다.
대규모 생성을 통해 확장성을 시연하고 최첨단 방법들과 비교한다.
다양한 데이터셋에 걸친 광범위한 경험적 분석을 제공하여 생성 품질과 특성 변화의 벤치마크를 제시한다.

제안 방법

원자 유형과 결합 차수를 갖는 분자 그래프를 다루도록 GraphRNN을 확장한다(S_i^π ∈ {0,1,2,3} 및 C_i^π).
복잡도를 줄이기 위해 BFS 노드 순서를 사용하고 NodeRNN 및 EdgeRNN 구성요소로 그래프를 생성한다.
엣지 샘플링 동안 화학적 원밸런시를 강제하기 위해 원밸런시 기반 거부 샘플링을 적용한다(어느 원자도 밸런시를 초과하지 않도록).
대규모 분자 데이터셋(ChEMBL, ZINC, MOSES)에서 감독되지 않은 가능도 사전 학습을 통해 현실적인 분포를 학습한다.
선택적으로 학습 중 구조적 페널티를 적용하여 밸런시 제약을 강화하고 유효성을 향상시킨다.
정책 기울기 강화 학습으로 평가자를 사용해 특성 기반 보상(예: 패널티가 있는 logP, QED, 녹는점)을 추정하며 생성된 분자를 최적화한다.

실험 결과

연구 질문

RQ1노드/엣지 타입 예측으로 직접 분자 그래프를 생성해 유효하고 다양하며 새로운 분자를 얻을 수 있는가?
RQ2추론 중 원밸런시 기반 거부 샘플링이 다양성이나 품질을 희생하지 않고 100% 유효성을 보장하는가?
RQ3정책 기울기 기반 최적화가 생성된 분자의 분포를 바람직한 특성(logP, QED, 녹는점)으로 이동시키는가?
RQ4학습 중 구조적 페널티를 사용하는 것이 유효성과 화학적 리얼리즘에 미치는 영향은 무엇인가?
RQ5대규모 벤치마크에서 MolecularRNN이 최첨단 그래프 및 SMILES 기반 생성기와 어떻게 비교되는가?

주요 결과

추론 중 원밸런시 기반 거부 샘플링으로 100% 유효성 달성.
대형 데이터셋에서의 무감독 가능도 사전 학습은 100만 샘플에 걸쳐 높은 유효성, 고유성, 새로움 및 내부 다양성을 제공합니다.
MolecularRNN은 30k 샘플에서 GCPN 및 JT-VAE와 비교해 유효성/고유성/새로움에서 경쟁력을 보여준다.
정책 기울기 최적화가 패널티가 있는 logP 및 QED의 목표 구간으로 특성 분포를 이동시켜 기준선보다 성능이 좋다.
녹는점 최적화는 그래프로부터 직접 도출될 수 없는 특성을 학습된 예측기를 평가자로 사용해 모델이 최적화할 수 있음을 시연한다.
구조적 페널티는 학습 중 신호를 제공하여 유효성과 화학적 리얼리즘을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.