[논문 리뷰] Generating Focussed Molecule Libraries for Drug Discovery with Recurrent Neural Networks
이 논문은 recurrent neural networks가 SMILES 기반 표현을 학습하여 유효한 약물유사 분자를 생성할 수 있으며, 알려진 활성 물질의 작은 세트에서 미세 조정(fine-tuning)을 통해 표적 활성에 풍부한 집중된 라이브러리를 만들어 목표 활성을 풍부하게 만들고, 타깃 예측 스코어러를 갖춘 전체 de novo 설계 주기를 가능하게 한다는 것을 보여준다.
In de novo drug design, computational strategies are used to generate novel molecules with good affinity to the desired biological target. In this work, we show that recurrent neural networks can be trained as generative models for molecular structures, similar to statistical language models in natural language processing. We demonstrate that the properties of the generated molecules correlate very well with the properties of the molecules used to train the model. In order to enrich libraries with molecules active towards a given biological target, we propose to fine-tune the model with small sets of molecules, which are known to be active against that target. Against Staphylococcus aureus, the model reproduced 14% of 6051 hold-out test molecules that medicinal chemists designed, whereas against Plasmodium falciparum (Malaria) it reproduced 28% of 1240 test molecules. When coupled with a scoring function, our model can perform the complete de novo drug design cycle to generate large sets of novel molecules for drug discovery.
연구 동기 및 목표
- SMILES 표현과 RNN을 사용하여 분자 구조의 생성 모델을 학습하고 유효하며 약물과 유사한 분자를 생성한다.
- 사전 학습된 모델을 소수의 알려진 활성 물질 세트에 대해 미세 조정하여 특정 표적에 초점을 맞춘 라이브러리를 생성하는 전이 학습을 시연한다.
- ML 기반 표적 예측 모델을 사용하여 생성된 분자가 특정 표적에 대해 활성일지 예측하는지 평가한다.
- 생성과 점수화, 활성 물질로의 재학습을 결합하여 반복적인 약물 발견의 설계-합성-테스트 주기를 시뮬레이션한다.
제안 방법
- 분자를 SMILES 문자열로 표현하고 SMILES 문법을 순환 신경망으로 모델링한다.
- 입력에 대해 원-핫 인코딩을 사용하고 층당 1024유닛의 3층 LSTM을 사용하며 ADAM 및 그래디언트 클리핑으로 학습한다.
- 일반적인 화학 언어를 학습하기 위해 ChEMBL 유래의 대규모 SMILES 데이터셋(1.4백만 분자)에서 사전 학습한다.
- 특정 표적에 대해 소규모 활성 물질 세트로 사전 학습된 모델을 미세 조정하고 각 에포크 이후 새로운 분자를 샘플링한다.
- 생성된 분자의 활성을 평가하기 위해 선택된 표적에 대해 GBT(E며 CFP4) 지문을 사용한 표적 예측 모델을 적용한다.
- 학습된 모델에서 기호별 샘플링으로 대규모 라이브러리를 생성하고 학습 데이터에 대한 특성을 평가한다.
실험 결과
연구 질문
- RQ1SMILES로 학습된 RNN이 유효하고 약물 특성을 가진 분자 구조를 학습할 수 있는가?
- RQ2대규모 일반 분자 데이터셋에서 소규모 표적 활성으로의 전이 학습이 집중적이고 활성가 풍부한 라이브러리를 산출하는가?
- RQ3생성된 분자들이 특정 표적에 대해 알려진 활성 물질을 얼마나 잘 재현하며 임의 샘플링 대비 어떤 풍부화가 나타나는가?
- RQ4생성 및 타깃 예측 스코어러의 조합이 전체 de novo 설계 주기(설계–합성–테스트 루프)를 가능하게 할 수 있는가?
주요 결과
- 1) 1.4M ChEMBL 분자에서 학습된 일반 모델은 대규모 샘플링 후 높은 타당성을 가진 유효하고 약물과 유사한 SMILES를 생성한다(97.7% 유효).
- 2) 표적 활성 물질로의 미세 조정을 통해 풍부한 재현 및 풍부화를 얻는다: Staphylococcus aureus의 경우 6051개 테스트 활성 물질 중 1000개 활성 물질로 미세 조정 후 14% 재현; Plasmodium falciparum의 경우 1239개 활성 물질로 학습하고 128,256개 생성 분자에서 1240개 활성 물질의 28% 재현(EOR 66.9).
- 3) Pf 말라리아의 경우 100개의 학습 활성 물질로도 7% 재현 및 EOR 19.0 달성 가능; pIC50>9일 때 11% 재현 및 EOR 35.7 관찰.
- 4) 5-HT2A 수용체 표적화의 경우 몇 에포크 후에 미세 조정하면 4 에포크 이후 약 50%의 예측 활성 물질을 얻을 수 있다.
- 5) Hard 타깃에 대해 사전학습은 좋은 성능에 필수적이며(예: Staph. aureus); 처음부터 학습된 모델은 사전학습 후 미세 조정된 모델보다 성능이 낮다.
- 6) 설계–합성–테스트 스타일 주기에서 생성, 점수화, 재학습을 반복하면 활성으로 예측된 고유 분자 60,988개를 생성해 전체 de novo 설계 워크플로우를 실행할 수 있는 잠재력을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.