QUICK REVIEW

[논문 리뷰] Molecular Generation with Recurrent Neural Networks (RNNs)

Esben Jannik Bjerrum, Richard Threlfall|arXiv (Cornell University)|2017. 05. 12.

Computational Drug Discovery Methods참고 문헌 7인용 수 48

한 줄 요약

이 논문은 SMILES로 인코딩된 화합물을 학습시켜 장기 단기 기억(기억장기) 단위를 갖는 순환 신경망을 사용하여 새로운 화학적으로 타당한 분자를 생성하는 방법을 제안한다. 모델은 훈련 데이터와 유사한 성질 분포를 갖는 분자를 성공적으로 생성하였으며, 검증된 합성 가능성 점수와 역합성 분석을 통해 80% 이상의 생성된 약물 유사 분자가 새로운 것으로 확인되었다.

ABSTRACT

The potential number of drug like small molecules is estimated to be between 10^23 and 10^60 while current databases of known compounds are orders of magnitude smaller with approximately 10^8 compounds. This discrepancy has led to an interest in generating virtual libraries using hand crafted chemical rules and fragment based methods to cover a larger area of chemical space and generate chemical libraries for use in in silico drug discovery endeavors. Here it is explored to what extent a recurrent neural network with long short term memory cells can figure out sensible chemical rules and generate synthesizable molecules by being trained on existing compounds encoded as SMILES. The networks can to a high extent generate novel, but chemically sensible molecules. The properties of the molecules are tuned by training on two different datasets consisting of fragment like molecules and drug like molecules. The produced molecules and the training databases have very similar distributions of molar weight, predicted logP, number of hydrogen bond acceptors and donors, number of rotatable bonds and topological polar surface area when compared to their respective training sets. The compounds are for the most cases synthesizable as assessed with SA score and Wiley ChemPlanner.

연구 동기 및 목표

RNN에 LSTM 셀을 사용하여 SMILES 문자열에서 화학적 규칙을 학습하고 새로운 합성 가능한 분자를 생성할 수 있는지 조사하기.
생성된 분자의 분자 성질 분포(예: 분자량, logP, 비틀림 결합 수 등)가 훈련 데이터와 얼마나 유사한지 평가하기.
Wiley ChemPlanner과 같은 합성 가능성 점수와 역합성 계획 도구를 사용하여 생성된 분자의 합성 가능성 평가하기.
생성된 분자가 훈련 세트에 비해 얼마나 진정으로 새로운지 평가하고, 훈련 세트에 대한 과적합 여부를 확인하기.

제안 방법

Zinc12 데이터베이스에서 추출한 SMILES 문자열(청소된 프ragment 및 약물 유사 서브셋)은 시작(!) 및 종료(E) 토큰을 추가하고 원-핫 인코딩을 통해 벡터화되었다.
Theano 백엔드를 사용한 Keras를 활용해 딥 RNN 아키텍처를 구현하였으며, 256개 유닛을 갖는 두 개의 LSTM 레이어와 ReLU 활성화를 갖는 두 층의 피드포워드 네트워크로 구성되었다.
정규화를 위해 입력 드롭아웃(0.1)을 사용하였고, 100,000개의 SMILES를 포함한 청크 단위로 512개의 미니배치로 훈련하였으며, 검증 손실 기반 조기 종료를 적용하였다.
상태 유지 샘플링 모델을 사용하여 예측된 문자를 네트워크에 다시 피드백하여 반복적으로 새로운 시퀀스를 생성하였다.
생성된 분자와 훈련 세트 간의 분자 성질(예: 분자량, logP, 수소 결합 기여자/수용자 수, 최대 표면적 폴라리티)을 비교하였다.
생성된 화합물의 합성 가능성 평가를 위해 합성 가능성 점수(SA 점수)와 Wiley ChemPlanner를 활용한 역합성 분석을 실시하였다.

실험 결과

연구 질문

RQ1LSTM 셀을 갖는 RNN가 명시적인 규칙 기반 제약 없이 SMILES 문자열에서 화학적으로 타당하고 새로운 분자를 생성할 수 있는가?
RQ2생성된 분자의 분자 성질 분포가 훈련 데이터와 얼마나 유사한가?
RQ3SA 점수와 역합성 계획을 통해 평가했을 때 생성된 분자의 합성 가능성은 어느 정도인가?
RQ4생성된 분자가 훈련 세트에 비해 얼마나 진정으로 새로운가? 과적합의 증거는 있는가?
RQ5훈련 데이터를 필터링하여 특정 성질 프로파일을 갖는 분자를 생성하도록 모델를 조정할 수 있는가?

주요 결과

프래그먼트 유사 및 약물 유사 데이터셋에 대해 각각 63%와 83%의 생성된 분자가 훈련 세트에 존재하지 않아, 잠재적인 과적합에도 불구하고 상당한 새로운 분자 생성 능력을 보였다.
분자량, logP, 수소 결합 기여자/수용자 수, 비틀림 결합 수, 최대 표면적 폴라리티 등 분자 성질의 분포가 생성된 분자와 훈련 세트 간에 유사하게 나타났다.
생성된 분자의 합성 가능성(SA) 점수는 중간에서 낮은 수준이었으며, 카탈로그 화합물과 유사하여 높은 합성 가능성 잠재력을 보였다.
Wiley ChemPlanner를 활용한 역합성 분석을 통해 다수의 생성된 화합물에 대해 타당한 합성 경로를 성공적으로 식별하였지만, 두 개의 분자는 경로를 도출하지 못했다.
모델는 과적합의 징후를 보였으며, 생성된 분자 중 상당수는 훈련 세트에 존재하여 화학적 공간에서 훈련 및 테스트 세트가 너무 유사하다는 점이 확인되었다.
생성된 분자가 원하는 성질 프로파일을 갖는다는 점은, 성능이 뛰어난 화합물로 재훈련하여 시뮬레이션 기반 약물 발견에서 반복 최적화가 가능하다는 잠재력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.