[논문 리뷰] ChemGAN challenge for drug discovery: can AI reproduce natural chemical diversity?
이 논문은 생성된 분자의 내부 화학 다양성에 대한 측정치를 정의하고 D2 활성도와 약물유사성에서 RL과 ORGAN 모델을 테스트하여 두 접근법이 표적 속성에 대해 자연스러운 다양성을 재현하지 못한다는 것을 발견한다.
Generating molecules with desired chemical properties is important for drug discovery. The use of generative neural networks is promising for this task. However, from visual inspection, it often appears that generated samples lack diversity. In this paper, we quantify this internal chemical diversity, and we raise the following challenge: can a nontrivial AI model reproduce natural chemical diversity for desired molecules? To illustrate this question, we consider two generative models: a Reinforcement Learning model and the recently introduced ORGAN. Both fail at this challenge. We hope this challenge will stimulate research in this direction.
연구 동기 및 목표
- 생성된 분자의 내부 화학 다양성을 Tanimoto 기반 측정을 사용하여 정량화한다.
- 도전 과제를 제시한다: 복잡한 생성 모델이 특정 속성에 대해 자연스러운 다양성을 재현할 수 있는가?
- 강화학습(RL)과 ORGAN 접근법을 두 가지 화학 속성인 D2 활성도와 druglikeness에 대해 비교한다.
- 생성된 부분집합이 특정 속성을 만족할 때 자연 분자의 다양성과 비교할 만한 다양성을 유지하는지 평가한다.
제안 방법
- 내부 다양성 I(A)를 분자 집합 A의 모든 쌍에 대한 평균 Tanimoto 거리로 정의한다.
- Morgan 지문과 RDKit를 사용하여 Tanimoto 유사도와 거리를 계산한다.
- 두 가지 생성 패러다임을 평가한다: 활동성(activity)이나 druglikeness를 보상으로 하는 LSTM 생성기를 사용하는 Reinforcement Learning (RL); 판별기 REST (Dφ)를 추가하고 λ로 혼합 보상을 사용하는 ORGAN.
- 무작위 부분집합 ZINC(15k)에서 사전 학습된 MLP 모델을 훈련시키고, 그 다음 RL이나 ORGAN으로 추가 에포크를 미세 조정한다.
- ORGAN의 경우, 판별기 출력을 R(Y1:T)=λDφ(Y1:T)+(1−λ)P/activity 또는 druglikeness의 경우 L(Y1:T)와 같이 작업 특이 보상과 혼합한다.
- Prop. Valid SMILES, Avg. Pa (activity probability), Avg. internal diversity, 그리고 activity >0.8 또는 druglikeness >0.8인 비율, 더불어 이 고점수 부분집합 내의 내부 다양성을 계산한다.
실험 결과
연구 질문
- RQ1주어진 화학 속성에 대해 출력의 내부 다양성이 자연스러운 다양성과 일치하도록 비사소한 생성 모델이 달성할 수 있는가?
- RQ2RL과 ORGAN이 도파민 D2 활성도나 druglikeness를 최적화할 때 다양한 샘플을 생성하는가?
- RQ3속성 만족도 증가(P(active)>0.8, L>0.8 등)가 반드시 내부 다양성을 감소시키는가?
- RQ4목표 속성을 달성하면서 다양성을 보존하는 데 있어 ORGAN이 RL보다 더 우수한가?
주요 결과
- 30 에포크의 RL은 목표 활성도를 증가시키지만 고활성 부분집합의 내부 다양성이 극적으로 감소한다.
- 60 에포크의 RL은 더 높은 활성도를 보이지만 여전히 고활성 집합에서 다양성이 매우 낮다.
- λ=0.04인 ORGAN은 30 에포크에서 고활성 샘플의 다양성을 RL에 비해 개선하지만 다양성은 여전히 자연 다양성에 비해 크게 낮다; 60 에포크에서는 다양성이 RL 수준으로 감소한다.
- druglikeness의 경우, 200 에포크의 RL은 높은 유효성은 얻지만 high-L 부분집합에서 다양성이 제로이다. 반면 λ=0.8인 ORGAN은 200 에포크에서 더 높은 유효성과 일부 다양성을 달성하지만 high-L 샘플에 대해 ZINC에서 관찰된 다양성에는 아직 미치지 못한다.
- 전반적으로 RL과 ORGAN 모두 대상 속성에 대해 자연 화학 다양성을 재현하지 못하며, ORGAN이 약간 더 나으나 여전히 자연 다양성에 미치지 못한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.