[논문 리뷰] In silico generation of novel, drug-like chemical matter using the LSTM neural network
이 논문은 ChEMBL의 생물활성 화합물에서 학습하여 인 비트로에서 새로운 약물 유사 분자를 생성하는 LSTM 기반의 딥 생성 모델을 제시한다. SMILES로 인코딩된 분자로 훈련된 모델은 두 시간 만에 100만 개의 다양한, 합성 가능하고 물리화학적으로 유리한 분자를 생성했으며, 가상 스크리닝을 통해 훈련 세트 수준의 생물활성 잠재력이 있음을 확인하였다.
The exploration of novel chemical spaces is one of the most important tasks of cheminformatics when supporting the drug discovery process. Properly designed and trained deep neural networks can provide a viable alternative to brute-force de novo approaches or various other machine-learning techniques for generating novel drug-like molecules. In this article we present a method to generate molecules using a long short-term memory (LSTM) neural network and provide an analysis of the results, including a virtual screening test. Using the network one million drug-like molecules were generated in 2 hours. The molecules are novel, diverse (contain numerous novel chemotypes), have good physicochemical properties and have good synthetic accessibility, even though these qualities were not specific constraints. Although novel, their structural features and functional groups remain closely within the drug-like space defined by the bioactive molecules from ChEMBL. Virtual screening using the profile QSAR approach confirms that the potential of these novel molecules to show bioactivity is comparable to the ChEMBL set from which they were derived. The molecule generator written in Python used in this study is available on request.
연구 동기 및 목표
- 강렬한 수열 탐색에 의존하지 않고 새로운 약물 유사 화학 구조를 생성하기 위한 딥 생성 모델을 개발하기 위해.
- LSTM 네트워크가 ChEMBL의 생물활성 분자들로부터 화학 문법과 구조적 선호도를 학습할 수 있는지 탐색하기 위해.
- 이러한 속성을 명시적으로 제약 조건으로 설정하지 않고도 유리한 물리화학적 및 합성적 특성을 갖춘 분자를 생성하기 위해.
- 프로파일 QSAR 및 가상 스크리닝을 사용하여 생성된 분자의 생물활성 잠재력을 평가하기 위해.
- 약물 발굴 파ipeline에서 사용 가능한 공개 및 오픈소스 구현을 제공하기 위해.
제안 방법
- 모델은 장기 단기 기억(기억) 순환 신경망(LSTM)을 사용하여 SMILES 문자열을 토큰 단위로 생성하며, ChEMBL 내 약물 유사 분자 대량 데이터셋에서 학습한다.
- SMILES 문자열은 문자로 토크나이즈되어 시퀀스로 간주되어 LSTM이 유효한 분자 문법의 순차적 패턴을 학습할 수 있도록 한다.
- 교차 엔트로피 손실를 사용하여 이전 문자들을 조건으로 다음 문자를 예측하도록 네트워크를 훈련시킨다.
- 표준 SMILES 파싱 및 정규화를 사용하여 생성된 시퀀스의 화학적 타당성을 검증한다.
- 생성 후 분자량, logP, 합성 가능성 등의 분자 특성을 계산하여 약물 유사성 여부를 평가한다.
- ChEMBL 세트에 대해 프로파일 QSAR 모델을 훈련하고 생성된 분자에 적용하여 생물활성 가능성 예측을 수행한다.
실험 결과
연구 질문
- RQ1LSTM 모델이 화학적으로 타당하고 새로운 SMILES 문자열을 생성하여 약물 유사 분자를 나타낼 수 있는가?
- RQ2생성된 분자들이 약물 유사 화학 공간 내에서 구조적 및 기능기 다양성을 얼마나 유지하는가?
- RQ3명시적인 최적화 없이도 생성된 분자들이 유리한 물리화학적 및 합성적 특성을 보이는가?
- RQ4생성된 분자들의 생물활성 잠재력이 ChEMBL 훈련 세트와 비교해 유사한가?
- RQ5모델이 짧은 시간 내에 대규모의 다양한 고품질 분자를 효율적으로 생성할 수 있는가?
주요 결과
- 모델은 단 두 시간 내로 100만 개의 새로운 화학적으로 타당한 분자를 성공적으로 생성하여 높은 생성 효율성을 입증하였다.
- 생성된 분자들은 높은 구조적 다양성을 보였으며, 훈련 세트에 존재하지 않는 다수의 새로운 화학구조형이 포함되어 있었다.
- 분자량, logP, 최상위 폴라리티 표면적 등 유리한 물리화학적 특성이 일반적인 약물 유사 범위 내에 있었다.
- 합성 가능성 점수는 낮았으며 중앙값 약 ~2.5로 나타나, 이는 명시적인 제약 없이도 합성이 가능함을 시사했다.
- 프로파일 QSAR를 사용한 가상 스크리닝 결과, 생성된 분자들이 ChEMBL 훈련 세트와 유사한 생물활성 예측 프로필을 보였다.
- LSTM을 사용한 딥 생성 모델링이 생물활성 분자의 화학 공간을 효과적으로 탐색하고 확장할 수 있음을 입증하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.