Skip to main content
QUICK REVIEW

[논문 리뷰] Fr\\'echet ChemNet Distance: A metric for generative models for molecules in drug discovery

Kristina Preuer, Philipp Renz|arXiv (Cornell University)|2018. 03. 26.
Computational Drug Discovery Methods인용 수 5
한 줄 요약

이 논문은 약물 발굴에서 생성 모델을 평가하기 위한 새로운 메트릭인 프레셰 케이엠넷 거리(Fréchet ChemNet Distance, FCD)를 제안한다. 이 메트릭은 약물 활성 예측을 위해 훈련된 딥 네URAL 네트워크인 케이엠넷(ChemNet)의 전단계 레이어 활성화를 활용한다. FCD는 케이엠넷 표현 공간 내에서 실제 분자와 생성된 분자의 분포 간의 프레셰 거리를 계산하여 화학적 타당성, 생물학적 관련성 및 다양성을 캡처한다. 세글러의 모델과 같은 모델에서는 낮은 FCD 값(예: 1.62)을 기록하여 실제 분자와의 분포 유사도가 높음을 나타내며, 타겟 생성에서의 편향을 탐지하고, 피어프린팅 기반 기준보다 뛰어난 성능을 보인다.

ABSTRACT

The new wave of successful generative models in machine learning has increased the interest in deep learning driven de novo drug design. However, assessing the performance of such generative models is notoriously difficult. Metrics that are typically used to assess the performance of such generative models are the percentage of chemically valid molecules or the similarity to real molecules in terms of particular descriptors, such as the partition coefficient (logP) or druglikeness. However, method comparison is difficult because of the inconsistent use of evaluation metrics, the necessity for multiple metrics, and the fact that some of these measures can easily be tricked by simple rule-based systems. We propose a novel distance measure between two sets of molecules, called Fr\\'echet ChemNet distance (FCD), that can be used as an evaluation metric for generative models. The FCD is similar to a recently established performance metric for comparing image generation methods, the Fr\\'echet Inception Distance (FID). Whereas the FID uses one of the hidden layers of InceptionNet, the FCD utilizes the penultimate layer of a deep neural network called ChemNet, which was trained to predict drug activities. Thus, the FCD metric takes into account chemically and biologically relevant information about molecules, and also measures the diversity of the set via the distribution of generated molecules. The FCD's advantage over previous metrics is that it can detect if generated molecules are a) diverse and have similar b) chemical and c) biological properties as real molecules. We further provide an easy-to-use implementation that only requires the SMILES representation of the generated molecules as input to calculate the FCD. Implementations are available at: https://www.github.com/bioinf-jku/FCD

연구 동기 및 목표

  • 신규 약물 설계에서 생성 모델에 대한 일관되고 통합된 평가 메트릭이 부족한 문제를 해결하기 위해.
  • 기존 메트릭의 한계를 극복하기 위해 단일 기술자표(예: logP, 약물 유사성)나 규칙 기반 타당성에 의존하는 것과는 달리, 화학적 정보와 생물학적 정보를 모두 통합하기 위해.
  • 생성된 분자의 다양성을 캡처하면서도 생물학적으로 의미 있는 표현 공간에서 실제 분자와의 유사도를 측정하는 메트릭을 개발하기 위해.
  • FCD가 특정 단백질 타겟(예: DRD2 또는 PLK1)에 과적합된 모델의 편향을 탐지할 수 있는지 평가하기 위해.
  • 재현 가능성을 보장하고 약물 발굴 연구 분야에서 널리 채택될 수 있도록 실용적이고 오픈소스로 구현된 도구를 제공하기 위해.

제안 방법

  • FCD는 케이엠넷의 전단계 레이어에서 유도된 분자 표현의 다변량 정규분포 간의 프레셰 거리를 계산한다.
  • 각 분자는 케이엠넷의 은닉 활성화를 통해 임bedding되며, 이는 약물 활성 예측 훈련 과정에서 학습된 화학적 및 생물학적 특징을 포함한다.
  • 실제 분자(pw)와 생성된 분자(p)의 활성화 분포에 대해 첫 번째 두 모멘트(평균과 공분산)를 계산하며, 이는 정규분포를 가정한다.
  • 다음 공식을 사용하여 FCD를 계산한다: d² = ||m − mw||² + Tr(C + Cw − 2(C Cw)^1/2), 여기서 m, C는 생성된 분자의 평균과 공분산이며, mw, Cw는 실제 분자의 평균과 공분산이다.
  • 생성된 분자의 SMILES 문자열에 FCD를 적용하여 순서 기반 생성 모델과의 호환성을 확보하고, 그래프 기반 모델의 경우도 SMILES로 변환 가능하게 한다.
  • 화학적 표현에 비해 생물학적 정보를 포함한 표현의 추가 가치를 평가하기 위해 FCD를 피어프린팅 기반 프레셰 거리(FFD)와 비교한다.

실험 결과

연구 질문

  • RQ1FCD는 생성된 분자의 화학적 및 생물학적 관련성을 종합적으로 평가할 수 있는 통합 메트릭으로서 기능할 수 있는가?
  • RQ2FCD는 DRD2나 PLK1와 같은 특정 단백질 타겟에 과적합된 생성 모델의 분포 편향을 탐지할 수 있는가?
  • RQ3FCD는 logP, 약물 유사성 또는 SA 점수와 같은 기존 메트릭과 비교해 모델 성능을 종합적으로 측정하는 데 얼마나 효과적인가?
  • RQ4케이엠넷를 통해 생물학적 정보를 통합할 경우, 순수 화학적 표현에 비해 메트릭의 민감도가 얼마나 향상되는가?
  • RQ5FCD는 전문가의 직관과 이전 연구 결과와 일치하는 방식으로 생성 모델들을 신뢰성 있게 순위 매길 수 있는가?

주요 결과

  • 세글러의 방법에 대해 FCD 값이 1.62로 나타나 실제 분자와의 분포 유사도가 높음을 확인하였으며, 이는 다양하고 약물 유사한 화합물을 효과적으로 생성한다는 것을 뒷받침한다.
  • DRD2 활성에 최적화된 방법들(예: ORGAN, RL)은 상당히 높은 FCD 값을 보였다(24.14에서 47.85 사이), 이는 실제 분자의 전체 분포에서 벗어나 있음을 시사한다.
  • ORGAN과 RL의 훈련 반복 횟수를 늘일수록 FCD 값이 증가함을 확인(예: ORGAN 60회 반복 대비 30회 반복), 이는 더 긴 훈련이 타겟 특화 분자에 대한 편향을 증가시키고 다양성을 감소시킴을 의미한다.
  • 규칙 기반 시스템은 FCD 값이 58.76으로 가장 높았으며, 이는 강력한 기준이 되며 단순한 시스템이 실제 분자 분포를 잘 근사하지 못함을 확인한다.
  • FCD는 PLK1 키나제 억제제 생성에서의 생물학적 편향을 탐지하여, 전체 분자 분포에서의 타겟 특화 이탈을 식별할 수 있음을 보여주었다.
  • FCD는 피어프린팅 기반 프레셰 거리(FFD)를 능가하여, 케이엠넷 표현에 포함된 생물학적 정보가 메트릭의 민감도와 구분 능력을 향상시킨다는 것을 입증하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.