QUICK REVIEW

[논문 리뷰] Constrained Bayesian Optimization for Automatic Chemical Design

Ryan‐Rhys Griffiths, José Miguel Hernández-Lobato|arXiv (Cornell University)|2017. 09. 16.

Machine Learning in Materials Science참고 문헌 136인용 수 51

한 줄 요약

이 논문은 VAE 잠재 공간에 대한 베이지안 최적화를 제약된 최적화 문제로 재구성하여 생성 분자의 타당성 및 품질을 높인다. 제약된 BO는 비제약 기준선보다 약물 유사한 분자와 더 높은 목표 점수를 크게 생성한다.

ABSTRACT

Automatic Chemical Design is a framework for generating novel molecules with optimized properties. The original scheme, featuring Bayesian optimization over the latent space of a variational autoencoder, suffers from the pathology that it tends to produce invalid molecular structures. First, we demonstrate empirically that this pathology arises when the Bayesian optimization scheme queries latent points far away from the data on which the variational autoencoder has been trained. Secondly, by reformulating the search procedure as a constrained Bayesian optimization problem, we show that the effects of this pathology can be mitigated, yielding marked improvements in the validity of the generated molecules. We posit that constrained Bayesian optimization is a good approach for solving this class of training set mismatch in many generative tasks involving Bayesian optimization over the latent space of a variational autoencoder.

연구 동기 및 목표

자동 화학 설계를 동기화하고 학습 세트 불일치를 잘못된 디코딩의 원인으로 식별한다.
디코딩 유효성을 유지하기 위한 제약 베이지안 최적화 형식을 제안한다.
제약 인식 획득 함수 사용이 분자 유효성 및 새로움을 향상시키는지 보여준다.
약물 설계 및 재료 설계 작업에서 약물성 및 특성 점수의 개선을 입증한다.

제안 방법

SMILES 기반 변분 자동인코더로 분자를 인코딩/디코딩한다.
표준 화학 지표(logP, QED)와 패널티(SA, 링 패널티)를 결합한 목표 함수를 정의한다.
제약 베이지안 최적화를 형식화한다: 최대화 f(z) subject to Pr(C(z)) ≥ 1−δ.
제약이 있는 기대 개선(EIC)을 획득 함수로 사용한다.
잠재 점의 디코딩 타당성을 예측하는 이진 제약 모델(BNN)을 학습하고 제약 조건에 활용한다.
병렬 Kriging-Believer BO와 배치 크기 50으로 20 이터레이션의 성능을 평가한다.

실험 결과

연구 질문

RQ1잠재 공간 탐색에 제약을 두면 비제약 BO에 비해 디코딩된 분자의 타당성이 향상되는가?
RQ2제약 BO가 표준 지표 하에서 생성된 약물 유사 분자의 품질과 새로움에 어떤 영향을 미치는가?
RQ3제약 BO가 의료 발견을 넘어 재료 설계 목표(예: 전력 변환 효율)에도 일반화될 수 있는가?

주요 결과

제약 BO는 시도 중 80% 이상에서 약물처럼 디코딩되지만 비제약 기준선은 5% 미만이다.
제약 BO는 더 많은 고유 분자를 생성하고 약물유사성 지표(logP 복합, QED 복합, QED)에서 목표 점수가 더 높다.
다섯 개 분할에 걸쳐 제약 BO 분자는 고려된 목표에 대해 학습 세트 점수의 90번째 백분위수에서 100번째 백분위수 사이에 순위에 들었다.
재료 설계 실험에서 제약 BO는 PCE에 대해 학습 데이터의 90번째 백분위수 이상 평균 점수를 생성했다.
전반적으로 제약 BO는 타당성을 크게 높이고 원래의 비제약 접근 방식에 비해 분자 품질을 자주 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.