Skip to main content
QUICK REVIEW

[논문 리뷰] Hierarchical Generation of Molecular Graphs using Structural Motifs

Wengong Jin, Regina Barzilay|arXiv (Cornell University)|2020. 02. 08.
Machine Learning in Materials Science참고 문헌 49인용 수 109
한 줄 요약

우리는 HierVAE를 도입합니다, 모티프 기반 계층 그래프 인코더-디코더로 큰 구조 모티프를 사용하여 대형 분자 그래프를 생성하고 재구성하며, 고분자 및 그래프 번역 작업에서 이전의 원자 기반 및 부분구조 기반 방법을 능가합니다.

ABSTRACT

Graph generation techniques are increasingly being adopted for drug discovery. Previous graph generation approaches have utilized relatively small molecular building blocks such as atoms or simple cycles, limiting their effectiveness to smaller molecules. Indeed, as we demonstrate, their performance degrades significantly for larger molecules. In this paper, we propose a new hierarchical graph encoder-decoder that employs significantly larger and more flexible graph motifs as basic building blocks. Our encoder produces a multi-resolution representation for each molecule in a fine-to-coarse fashion, from atoms to connected motifs. Each level integrates the encoding of constituents below with the graph at that level. Our autoregressive coarse-to-fine decoder adds one motif at a time, interleaving the decision of selecting a new motif with the process of resolving its attachments to the emerging molecule. We evaluate our model on multiple molecule generation tasks, including polymers, and show that our model significantly outperforms previous state-of-the-art baselines.

연구 동기 및 목표

  • 대형 분자인 고분자와 같은 분자 생성을 개선하기 위해 대형 구조 모티프의 사용을 동기 부여합니다.
  • 원자에서 모티프까지 다중 해상도 근거를 위한 분자 표현을 갖는 계층적 인코더를 개발합니다.
  • 접합 결정과 함께 모티프별로 분자를 구축하는 모티프 기반 자기회귀 디코더를 제안합니다.
  • 기존 베이스라인과 비교하여 우수한 재구성, 번역 성능, 디코딩 속도를 입증합니다.

제안 방법

  • 교량 결합에서 그래프를 분해하고 자주 발생하는 부분그래프를 모티프로 선택하여 훈련 분자에서 모티프 어휘를 추출합니다.
  • 세 층 계층 그래프 표현(모티프, 연결/부착, 원자)을 구성하고 이를 세 개의 계층형 MPN으로 인코딩하여 각 분자에 대한 잠재 변수 z를 얻습니다.
  • 다음 모티프, 그 부착 구성 및 기존 그래프에 어떻게 부착되는지(z에서 가져온)를 예측하는 자기회귀식 거친→정밀 디코더를 사용합니다.
  • 분자 분포에 대한 변분 하한(ELBO)을 최대화하기 위해 teacher forcing으로 학습합니다.
  • 잠재 변수를 도입하여 주의 메커니즘과 함께 다양한 속성 최적화된 출력을 생성하는 그래프-투-그래프 번역으로 확장합니다.
  • 번역 시 다중 해상도 표현에 대해 계층적 주의(attention)를 갖는 인코더-디코더를 사용하여 모티프 수준 예측을 안내합니다.

실험 결과

연구 질문

  • RQ1더 크고 유연한 모티프를 빌딩 블록으로 사용하면 원자 기반 또는 작은 부분구조 기반 방법에 비해 대형 분자의 생성과 재구성에 도움이 될 수 있습니까?
  • RQ2계층적 모티프 기반 인코딩이 확장 가능한 고분자 생성 및 그래프 번역에 대한 디코딩 과정을 어떻게 분리하고 정보를 제공합니까?
  • RQ3모티프 기반 디코더가 고분자 및 번역 작업에서 더 빠른 디코딩과 실제 분자에 대한 분포 유사성을 향상시킵니까?
  • RQ4더 큰 모티프를 사용하는 것과 제한된 작은 모티프를 사용하는 것이 재구성 정확도 및 속성 최적화 지표에 미치는 영향은 무엇입니까?

주요 결과

  • HierVAE는 베이스라인보다 훨씬 높은 재구성 정확도(79.9%)를 달성합니다(예: JT-VAE 58.5%).
  • 고분자 생성에서 HierVAE는 분포 통계의 최첨단을 달성하며 logP 및 분자량 지표가 개선됩니다.
  • HierVAE는 이전의 부분구조 기반 방법보다 디코딩이 빨라 생성 단계를 감소시키고 기준선 대비 디코딩 속도를 약 6.3배 향상시킵니다.
  • 그래프-투-그래프 번역에서 HierG2G는 JTNN 및 AtomG2G 베이스라인보다 QED 개선과 DRD2 개선이 크고 디코딩 속도도 빠릅니다.
  • Ablations에서 큰 모티프가 작은 모티프를 능가하는 것으로 나타났으며, 모티프 규모의 빌딩 블록이 대형 분자의 성능을 향상시킨다는 핵심 주장에 타당성을 뒷받침합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.