QUICK REVIEW

[논문 리뷰] MolGAN: An implicit generative model for small molecular graphs

Nicola De Cao, Thomas Kipf|arXiv (Cornell University)|2018. 05. 30.

Machine Learning in Materials Science참고 문헌 39인용 수 477

한 줄 요약

MolGAN은 직접적으로 작은 분자 그래프를 생성하고 화학적 특성을 최적화하기 위해 RL 목표를 사용하는 암묵적, 가능도-없는 GAN 기반 모형을 도입하여 QM9에서 높은 유효성 및 새로움을 달성합니다. 그래프 표현을 기반으로 작동하며 순열-불변식 판별자 및 보상 네트워크를 갖습니다.

ABSTRACT

Deep generative models for graph-structured data offer a new angle on the problem of chemical synthesis: by optimizing differentiable models that directly generate molecular graphs, it is possible to side-step expensive search procedures in the discrete and vast space of chemical structures. We introduce MolGAN, an implicit, likelihood-free generative model for small molecular graphs that circumvents the need for expensive graph matching procedures or node ordering heuristics of previous likelihood-based methods. Our method adapts generative adversarial networks (GANs) to operate directly on graph-structured data. We combine our approach with a reinforcement learning objective to encourage the generation of molecules with specific desired chemical properties. In experiments on the QM9 chemical database, we demonstrate that our model is capable of generating close to 100% valid compounds. MolGAN compares favorably both to recent proposals that use string-based (SMILES) representations of molecules and to a likelihood-based method that directly generates graphs, albeit being susceptible to mode collapse. Code at https://github.com/nicola-decao/MolGAN

연구 동기 및 목표

SMILES 문자열이 아닌 분자 그래프를 직접 생성함으로써 신약 설계의 새로운 가능성을 모티베이트한다.
그래프 매칭이나 노드 순서 휴리스틱을 피하기 위해 작은 그래프를 위한 암묵적이고 가능도-없는 제너레이터를 개발한다.
생성 결과를 바람직한 화학적 특성으로 방향지향하기 위해 GAN과 강화학습을 결합한다.
Relational-GCN 기반의 판별자와 보상 네트워크를 통해 순열-불변의 그래프 처리를 가능하게 한다.

제안 방법

분자를 노드 유형(원자)과 간선 유형(결합 유형)을 갖는 무방향 그래프로 표현한다.
노드 및 간 edge 타입 분포를 나타내는 밀집한 X와 A를 출력하는 제너레이터 G를 사용하고, 범주 샘플링을 통해 이산 그래프를 샘플링한다.
그래프 입력에 Relational-GCN을 사용하여 순열-불변 판별자 D와 보상 네트워크 R̂를 학습한다.
현실성(realism)과 특성 최적화를 균형있게 달성하기 위해 공동 손실 L(θ)=λ·L_WGAN(θ)+(1−λ)·L_RL(θ)을 최적화한다.
미분가능한 보상 예측기를 가진 결정적 정책 경사(DDPG에서 영감을 얻음)를 적용하여 그래프 생성을 원하는 특성으로 유도한다.
비미분 가능한 샘플링에서 그래디언트 기반 학습을 가능하게 하기 위해 연속, Gumbel 노이즈, Straight-through Gumbel-Softmax의 세 가지 이산화 변형을 탐색한다.

실험 결과

연구 질문

RQ1MolGAN이 SMILES 표현에 의존하지 않고 직접 유효한 분자 그래프를 생성할 수 있는가?
RQ2GAN 기반 생성과 RL 기반 특성 최적화를 결합하면 이전의 그래프 기반 또는 SMILES 기반 방법과 비교하여 유효성, 새로움, 용해도 등을 향상시키는가?
RQ3트레이드-오프 매개변수 λ가 유효성, 고유성, 새로움 및 특성 점수에 어떤 영향을 미치는가?
RQ4고차원 그래프 생성 작업에서 결정적 정책 경사 접근법(DDPG)이 효과적인가?
RQ5그래프 기반 판별자와 보상 네트워크가 QM9에서 생성 품질에 어떤 영향을 미치는가?

주요 결과

MolGAN은 QM9 하위 집합에서 거의 100%의 유효성을 달성하고, 일부 SMILES 기반 및 가능도 기반 그래프 제너레이터에 비해 유효성 및 특성 점수에서 크게 우수하다.
낮은 λ 값(GAN 목표를 우선하는)이 더 높은 유효성을 가져다주며, RL이 무효한 출력에 강하게 페널티를 가한다는 것을 시사한다.
MolGAN은 QM9에서 ORGAN 및 몇몇 VAE 기반 베이스라인보다 더 높은 유효성 및 용해도/약물적합성/합성가능성 점수를 보인다.
QM9에서 MolGAN을 학습시키면 높은 유효성과 경쟁력 있는 목적 점수를 얻고, 순차적 SMILES 기반 방법보다 학습 시간이 더 빠르다.
모든 실험은 모드 붕괴 경향(낮은 고유성 점수)을 보고하며 이는 조기 중지 및 보상 네트워크의 사전 학습이 필요함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.