Skip to main content
QUICK REVIEW

[논문 리뷰] A Deep Generative Model for Fragment-Based Molecule Generation

Marco Podda, Davide Bacciu|arXiv (Cornell University)|2020. 02. 28.
Machine Learning in Materials Science참고 문헌 29인용 수 35
한 줄 요약

이 논문은 BRICS 기반 분해와 저빈도 마스킹을 사용하여 유효성과 고유성을 개선한 분절 기반 언어 모델을 분자 생성에 도입하고 그래프 기반 방법과 경쟁력 있는 결과를 보인다.

ABSTRACT

Molecule generation is a challenging open problem in cheminformatics. Currently, deep generative approaches addressing the challenge belong to two broad categories, differing in how molecules are represented. One approach encodes molecular graphs as strings of text, and learns their corresponding character-based language model. Another, more expressive, approach operates directly on the molecular graph. In this work, we address two limitations of the former: generation of invalid and duplicate molecules. To improve validity rates, we develop a language model for small molecular substructures called fragments, loosely inspired by the well-known paradigm of Fragment-Based Drug Design. In other words, we generate molecules fragment by fragment, instead of atom by atom. To improve uniqueness rates, we present a frequency-based masking strategy that helps generate molecules with infrequent fragments. We show experimentally that our model largely outperforms other language model-based competitors, reaching state-of-the-art performances typical of graph-based approaches. Moreover, generated molecules display molecular properties similar to those in the training sample, even in absence of explicit task-specific supervision.

연구 동기 및 목표

  • SMILES 기반 생성기가 가지는 높은 비정상성 및 중복 문제를 분절 수준의 생성을 활용하는 Fragment-Based Drug Design(FBDD)에서 영감을 받아 해결한다.
  • 화학적으로 타당한 분절과 분절 간의 유효한 연결을 생성하여 분자 유효성을 높인다.
  • 생성 중 희귀 분절을 강화하는 마스킹 전략으로 분자 고유성을 향상시킨다.
  • 단순한 분절 기반 표현을 사용하더라도 그래프 기반 생성기에 비해 경쟁력 있는 성능을 시연한다.

제안 방법

  • 왼쪽에서 오른쪽으로의 SMILES 유도 분해를 사용하여 더미 부착 지점을 갖는 BRICS 분절의 순차적 분할로 분해한다.
  • 맥락 유사성을 포착하기 위해 음수 샘플링이 포함된 스킵그램 모델로 분절 어휘를 구성하고 임베딩을 학습한다.
  • GRU 기반 인코더와 디코더를 갖춘 인코더-디코더 VAE 유사 구조를 사용한다; 잠재 공간 z를 샘플링하여 디코더를 초기화한다.
  • 로그우도(fragment 시퀀스)의 최대화를 위해 교사 강요(teacher forcing)로 학습하고 KL 발산 항으로 가우시안 공간으로 정규화한다.
  • 저빈도 마스킹(Low-Frequency Masking)을 도입하여 희귀 분절을 빈도 기반 토큰으로 대체하고 생성 과정에서 저빈도 분절의 샘플링을 가능하게 한다.
  • 생성 중에는 잠재 z를 샘플링하고 탐욕적 샘플링으로 분절 시퀀스를 디코드한 뒤 분절로부터 유효한 분자를 재구성한다; 부착 지점 제약 조건을 적용한다.

실험 결과

연구 질문

  • RQ1분절 기반 생성을 통해 원자 단위 SMILES 기반 모델에 비해 유효성 비율이 개선될 수 있는가?
  • RQ2저빈도 마스킹(LFM)이 생성 분자의 고유성과 다양성을 개선하는가?
  • RQ3분절 기반 LM 기반 생성은 그래프 기반 분자 생성기와 비교하여 유효성, 신기성, 고유성 측면에서 어떤 차이가 있는가?

주요 결과

모델모델 계열데이터셋유효성신규성고유성
ChemVAELMZINC0.1700.9800.310
GrammarVAELMZINC0.3101.0000.108
SDVAELMZINC0.435--
GraphVAEGraphZINC0.1401.0000.316
CGVAEGraphZINC1.0001.0000.998
NeVAEGraphZINC1.0000.9991.000
OursLMZINC1.0000.9920.460
Ours (LFM)LMZINC1.0000.9950.998
OursLMPCBA1.0000.9810.108
Ours (LFM)LMPCBA1.0000.9910.972
  • 분절 기반 LM은 ZINC 및 PCBA 데이터셋에서 완전한 유효성을 달성하여 LM 기반 기준선보다 우수하고 유효성 측면에서 최첨단 그래프 기반 방법과 대등한 성능을 보인다.
  • LM 및 LFM 변형 모두에서 고유성이 향상되며, LFM을 사용할수록 더욱 큰 이점이 나타난다.
  • LFM은 PCBA에서 현저한 개선을 보이며 LM의 성능을 최첨단 그래프 모델에 가깝게 끌어올린다.
  • 그래프 기반 모델과 비교할 때 LFM 변형은 ZINC/PCBA 작업에서 고유성 면에서 종종 우수하고 경쟁력이 있다.
  • 생성된 분자는 특정 작업 감독 없이도 훈련 데이터와 유사한 구조적 특징 및 약물유사 성질을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.