Skip to main content
QUICK REVIEW

[논문 리뷰] Molecular Hypergraph Grammar with its Application to Molecular Optimization

Hiroshi Kajino|arXiv (Cornell University)|2018. 09. 08.
Machine Learning in Materials Science참고 문헌 19인용 수 23
한 줄 요약

이 논문은 분자 초그래프 문법(MHG)을 사용하여 화학적 결합성과 구조적 제약 조건을 인코딩함으로써 단일 VAE를 통해 100% 유효한 분자를 생성할 수 있는 분자 초그래프 문법 변분 오토인코더(MHG-VAE)를 제안한다. 제한된 성질 평가 조건에서 분자 최적화를 수행할 때, 기존의 SOTA 기반 VAE 및 강화학습 기반 방법보다 뛰어난 성능을 보이며, 더 적은 쿼리 수로 뛰어난 성질 점수를 달성한다.

ABSTRACT

Molecular optimization aims to discover novel molecules with desirable properties. Two fundamental challenges are: (i) it is not trivial to generate valid molecules in a controllable way due to hard chemical constraints such as the valency conditions, and (ii) it is often costly to evaluate a property of a novel molecule, and therefore, the number of property evaluations is limited. These challenges are to some extent alleviated by a combination of a variational autoencoder (VAE) and Bayesian optimization (BO). VAE converts a molecule into/from its latent continuous vector, and BO optimizes a latent continuous vector (and its corresponding molecule) within a limited number of property evaluations. While the most recent work, for the first time, achieved 100% validity, its architecture is rather complex due to auxiliary neural networks other than VAE, making it difficult to train. This paper presents a molecular hypergraph grammar variational autoencoder (MHG-VAE), which uses a single VAE to achieve 100% validity. Our idea is to develop a graph grammar encoding the hard chemical constraints, called molecular hypergraph grammar (MHG), which guides VAE to always generate valid molecules. We also present an algorithm to construct MHG from a set of molecules.

연구 동기 및 목표

  • 분자 최적화 과정에서 엄격한 결합성 및 연결성 제약 조건을 만족하는 화학적으로 유효한 분자를 생성하는 데 도전하는 것.
  • SMILES 기반 VAE에서 흔히 발생하는 디코딩 오류 문제를 해결하는 것, 즉 네트워크가 분자로 파arse되지 않는 잘못된 문자열을 생성하는 문제.
  • 보조 네트워크 없이도 높은 유효성을 유지할 수 있는 단일 아키텍처 VAE를 개발하여 학습을 단순화하고 일반화 능력을 향상시키는 것.
  • MHG와 변분 오토인코딩 및 베이지안 최적화를 융합하여, 성질 평가 횟수가 제한된 조건에서도 효율적인 분자 최적화를 가능하게 하는 것.
  • MHG-VAE가 VAE 기반 및 강화학습 기반 방법보다 샘플 효율성과 성질 점수 성능에서 뛰어나다는 것을 입증하는 것.

제안 방법

  • 분자 구조를 원자 및 결합 수준에서, 스테레오화학 및 결합성 제약 조건을 포함하여 기록하는 형식적 체계인 분자 초그래프 문법(MHG)을 제안한다.
  • MHG를 사용하여 분자를 계층적이고 트리 구조적인 초그래프로 표현하며, 초간선(hyperedges)은 분자 조각(예: 고리, 지방 사슬)을, 노드는 원자 또는 부분 구조를 나타낸다.
  • 표준 VAE를 사용하여 단일 인코더-디코더 쌍을 활용해 분자를 연속 잠재 공간으로 매핑하며, MHG를 기반으로 모든 생성된 분자가 화학적으로 유효하도록 유도한다.
  • 공통된 조각과 그 연결 패턴을 식별하여 입력 분자 집합에서 자동으로 MHG를 구성하는 알고리즘을 개발한다.
  • MHG-VAE를 베이지안 최적화(BO)와 융합하여, 성질 평가 횟수를 최소화하면서도 잠재 공간에서 고성능 분자를 반복적으로 탐색하는 데 사용한다.
  • 이중 단계 프rotocol을 적용한다: (1) 무제한 오라클 케이스는 잠재 공간의 품질 평가를 위한 것이며, (2) 제한된 오라클 케이스는 실제 실험적 비용 제약 조건을 시뮬레이션하기 위한 것으로, 고정된 쿼리 예산 하에서 성능를 비교한다.

실험 결과

연구 질문

  • RQ1화학적 제약 조건을 직접 구조적 표현에 통합함으로써 단일 VAE 아키텍처가 분자 생성의 100% 유효성을 달성할 수 있는가?
  • RQ2성질 평가 횟수가 제한된 조건에서 MHG-VAE가 기존의 VAE 기반 및 강화학습 기반 방법보다 뛰어난 성능을 보일 수 있는가?
  • RQ3동일한 함수 평가 횟수 내에서 MHG-VAE가 SOTA 기준선보다 더 높은 목표 성질 점수를 가진 분자를 생성할 수 있는가?
  • RQ4보조 네트워크나 복잡한 디코딩 메커니즘에 의존하는 방법들과 비교할 때 MHG-VAE는 어떤 성능을 보이는가?
  • RQ5실제 실험적 제약 조건을 시뮬레이션하는 제한된 오라클 케이스에서 MHG-VAE는 얼마나 높은 성능을 유지하는가?

주요 결과

  • MHG-VAE는 분자 초그래프 문법에 화학적 결합성 및 연결성 규칙을 직접 통합함으로써 디코딩 오류 없이 100% 유효한 분자 생성을 달성한다.
  • 무제한 오라클 케이스에서 MHG-VAE는 VAE 기반 방법 중에서 가장 뛰어난 예측 성능을 보이며, 기준선 대비 더 높은 로그우도와 더 낮은 RMSE를 기록한다.
  • 제한된 오라클 케이스에서 MHG-VAE는 SOTA 강화학습 기반 방법인 GCPN을 능가하며, 동일한 쿼리 수 내에서 상위 3개 분자의 성질 점수를 유의미하게 높게 달성한다.
  • MHG-VAE가 생성한 상위 50개 분자의 통계는 JT-VAE 및 기타 VAE 기반 모델 대비 뛰어난 성능을 보이며, 고품질 후보를 일관되게 발견하고 있음을 시사한다.
  • MHG-VAE는 제한된 오라클 케이스에서도 거의 최적의 성능을 유지하며, 무제한 케이스와 거의 동일한 성능을 보이며 뛰어난 샘플 효율성을 입증한다.
  • 10회의 반복 시험 전반에서 메서드의 성능는 일관되며, 상위 3개 분자의 성질 점수와 상위 50개 평균 점수 모두 경쟁 기반 방법을 초월한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.