[논문 리뷰] All SMILES Variational Autoencoder
All SMILES VAE는 중첩된 RNN과 주의(attention)를 통해 여러 SMILES 문자열을 함께 처리한 후, 서로 다른 SMILES 모음으로 디코딩하여 분자 공간과의 근사적 일대일 매핑을 촉진하고, 제한된 잠재 공간 내에서 최첨단 특성 예측 및 그래디언트 기반의 분자 최적화를 달성한다.
Variational autoencoders (VAEs) defined over SMILES string and graph-based representations of molecules promise to improve the optimization of molecular properties, thereby revolutionizing the pharmaceuticals and materials industries. However, these VAEs are hindered by the non-unique nature of SMILES strings and the computational cost of graph convolutions. To efficiently pass messages along all paths through the molecular graph, we encode multiple SMILES strings of a single molecule using a set of stacked recurrent neural networks, pooling hidden representations of each atom between SMILES representations, and use attentional pooling to build a final fixed-length latent representation. By then decoding to a disjoint set of SMILES strings of the molecule, our All SMILES VAE learns an almost bijective mapping between molecules and latent representations near the high-probability-mass subspace of the prior. Our SMILES-derived but molecule-based latent representations significantly surpass the state-of-the-art in a variety of fully- and semi-supervised property regression and molecular property optimization tasks.
연구 동기 및 목표
- SMILES 비고유성과 그래프 복잡성 addressed로 불연속된 화학 공간에서의 분자 특성 최적화를 개선하려는 동기 부여.
- SMILES 실현이 아닌 분자 수준의 특징을 포착하는 잠재 표현을 개발한다.
- 사전 확률 영역의 높은 확률로 제한된 재매개된 잠재 공간에서의 경사 기반 분자 특성 최적화를 가능하게 한다.
- 부분 및 완전 감독 특성 예측 및 독성 평가에서 최첨단 성능을 입증한다.
제안 방법
- 병렬로 쌓인 RNN을 사용하고 SMILES 표현 간에 대응하는 원자들 사이에 풀링을 적용하여 다중 SMILES 문자열에서 분자를 인코딩한다.
- SMILES 문자열 간 동족 원자 표현을 풀링하여 분자 그래프에서의 메시지 전달을 모방한다.
- 풀링된 RNN 출력으로 고정 길이의 잠재 표현을 형성하기 위해 Bahdanau 스타일 주의(attention)를 사용한다.
- Beam-search 디코더를 사용하여 같은 분자의 서로 다른 SMILES 문자열로 디코딩하여 분자 공간과의 거의 일대일 매핑을 유도한다.
- 재매개된 잠재 공간에서 사전의 고확률 영역으로 제한된 특성 회귀기를 함께 학습하고 그 잠재 표현에서 경사 기반 방법으로 특성을 최적화한다.
- 원한다면 디코딩 과정에서 유효한 SMILES 문자열로의 문법 제약을 옵션으로 강제할 수 있다.
실험 결과
연구 질문
- RQ1하나의 분자에 대해 다중 SMILES 문자열로 구성된 잠재 공간이 SMILES 비고유성에도 불구하고 로봇적인, 분자 중심 표현을 낳을 수 있는가?
- RQ2서로 다른 SMILES 문자열로의 디코딩이 분자 중심의 잠재 표현을 강화하여 특성 예측과 최적화에 일반화될 수 있는가?
- RQ3사전(constrained) 영역에서의 잠재 공간에서의 경사 기반 최적화가 사전 비제한 방법과 비교하여 분자 특성에 대해 어떻게 성능을 발휘하는가?
- RQ4All SMILES 잠재 표현을 사용할 때 부분/완전 감독 특성 예측 및 독성 보조에서 기존의 최첨단 방법 대비 어떤 이점이 있는가?
주요 결과
- 재구성 정확도: 보류된 ZINC250k 테스트 세트에서 평균 잠재 포스트eriors 및 beam-search 디코딩을 사용하여 87.4% ± 1%로 정확하게 재구성된다.
- 사전 샘플링의 타당성: 사전에서 뽑은 샘플의 98.5% ± 0.1%가 유효한 SMILES 문자열로 디코드된다.
- 참신성 및 실용성: 50,000개의 사전 샘플에서 디코드된 분자는 모두 고유하며 학습 데이터에 비해 99.958%가 참신하고 평균 합성 가능성 점수는 2.97 ± 0.01이다.
- ZINC250k에 대한 완전 감독 회귀 성능은 logP에 대해 MAE 0.005 ± 0.0006, QED에 대해 0.0052 ± 0.0001로 ECFP, CVAE, 그래프 합성 기반 기초 방법을 능가한다.
- Tox21 독성 예측: All SMILES는 Tox21 데이터셋에서 AUC-ROC 0.871로 여러 이전 모델을 능가한다.
- 분자 최적화: 그래디언트 기반의 잠재 공간 최적화가 최근의 최첨단 방법과 견주어도 뒤지지 않는 상위 penalized logP 및 QED 값을 도출하며, JT-VAE, GCPN, MolDQN 결과와 명시적으로 비교된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.