[논문 리뷰] Augmenting Genetic Algorithms with Deep Neural Networks for Exploring the Chemical Space
본 논문은 다양성을 촉진하고 화학 공간에서의 탐색을 유도하기 위해 신경망 판별기로 보강된 유전 알고리즘을 제시하며, 페널라이즈드 logP 점수에서 최첨단 성과를 달성한다.
Challenges in natural sciences can often be phrased as optimization problems. Machine learning techniques have recently been applied to solve such problems. One example in chemistry is the design of tailor-made organic materials and molecules, which requires efficient methods to explore the chemical space. We present a genetic algorithm (GA) that is enhanced with a neural network (DNN) based discriminator model to improve the diversity of generated molecules and at the same time steer the GA. We show that our algorithm outperforms other generative models in optimization tasks. We furthermore present a way to increase interpretability of genetic algorithms, which helped us to derive design principles.
연구 동기 및 목표
- Tailor-made 유기 물질과 분자를 설계하기 위한 화학 공간의 효율적 탐색 동기 부여.
- 다양성을 높이고 탐색을 주도하기 위해 적응형 신경망 판별기를 갖춘 GA 개발.
- GA-D 접근법이 분자 최적화 작업에서 기존 생성 모델을 능가하는지 입증.
- 고성능 분자에 대한 설계 원리를 드러내는 해석 가능성의 이점을 입증.
제안 방법
- SELFIES 형식으로 표현된 분자의 모집단을 사용하는 GA를 적용한다.
- 적합도 F(m) = J(m) + beta * D(m)로 정의하는데, J(m)은 페널라이즈드 logP이고 D(m)는 신경망의 판별기 점수이다.
- 판별기를 GA가 생성한 데이터와 참조 데이터로 매 세대 학습시켜 향후 적합도에 편향을 주입한다.
- 무효 구조를 허용하지 않는 SELFIES의 강건성에 의존하여 무작위 돌연변이를 허용하고 페닐 추가 돌연변이 규칙(~4%)을 포함한다.
- 장기간 실행에서 정체를 완화하고 다양한 분자 계열의 탐색을 촉진하기 위한 시간 의존적 적응형 페널티를 사용한다.
실험 결과
연구 질문
- RQ1신경망 판별기가 GA에 통합되어 화학 공간에서 다양성과 탐색을 향상시킬 수 있는가?
- RQ2판별기가 전통적인 GA에 비해 장기 최적화 및 정체 회피에 어떤 영향을 미치는가?
- RQ3GA-D가 페널라이즈드 logP에서 다른 생성 모델과 비교해 어떤 성능 향상을 보이는가?
- RQ4이 접근법이 고성능 분자에 대한 해석 가능한 설계 규칙을 산출할 수 있는가?
주요 결과
| 모델 | 최대 페널라이즈드 logP |
|---|---|
| GVAE + BO (Kusner et al., 2017) | 2.87±0.06 |
| VAE (Exploitation) (SD-VAE, 2018) | 3.50±0.44 |
| CVAE + BO (Gómez-Bombarelli et al., 2018) | 4.85±0.17 |
| ORGAN (Guimaraes et al., 2017) | 3.52±0.08 |
| JT-VAE (Jin et al., 2018a) | 4.90±0.33 |
| ChemTS (Yang et al., 2017) | 5.6±0.5 |
| GCPN (You et al., 2018) | 7.87±0.07 |
| Random SELFIES | 6.19±0.63 |
| GB-GA (Jensen, 2019) GA | 7.4±0.9 |
| GB-GA (Jensen, 2019) GA | 15.76±5.71 |
| GA (here) | 12.61±0.81 |
| GA + D (here) | 13.31±0.63 |
| GA + D(t) (here) | 20.72±3.14 |
- GA-D는 보고된 문헌 모델보다 더 높은 최대 페널라이즈드 logP 점수를 달성한다(예: DNN 사용 시 20.72 ± 3.14까지, D 없이 13.31 ± 0.63까지).
- 판별기에 의한 적응형 페널티가 과대표현된 고성능 가족을 페널티하여 정체를 줄이고 탐색을 촉진한다.
- 시간 의존적 적응형 페널티가 이전 방법들보다 최대 J(m)을 더 향상시켜 강한 탐색 능력을 보여준다.
- K-평균 클러스터링과 PCA 분석은 고 J(m)와 연관된 설계 분류와 규칙을 밝혀낸다.
- 이 방법은 제약된 최적화와 동시적인 logP 및 QED 최적화를 지원하여 다양한 작업에서의 적합성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.