Skip to main content
QUICK REVIEW

[논문 리뷰] Uni-QSAR: an Auto-ML Tool for Molecular Property Prediction

Zhifeng Gao, Xiaohong Ji|arXiv (Cornell University)|2023. 04. 24.
Computational Drug Discovery Methods인용 수 10
한 줄 요약

Uni-QSAR는 1D SMILES 토큰, 2D 그래프, 3D 콘포머를 대규모 사전학습과 결합한 Auto-ML QSAR 도구로, 22개의 TDC 태스크 중 21개에서 최첨단 성능을 달성하며 분자 특성을 예측합니다.

ABSTRACT

Recently deep learning based quantitative structure-activity relationship (QSAR) models has shown surpassing performance than traditional methods for property prediction tasks in drug discovery. However, most DL based QSAR models are restricted to limited labeled data to achieve better performance, and also are sensitive to model scale and hyper-parameters. In this paper, we propose Uni-QSAR, a powerful Auto-ML tool for molecule property prediction tasks. Uni-QSAR combines molecular representation learning (MRL) of 1D sequential tokens, 2D topology graphs, and 3D conformers with pretraining models to leverage rich representation from large-scale unlabeled data. Without any manual fine-tuning or model selection, Uni-QSAR outperforms SOTA in 21/22 tasks of the Therapeutic Data Commons (TDC) benchmark under designed parallel workflow, with an average performance improvement of 6.09\%. Furthermore, we demonstrate the practical usefulness of Uni-QSAR in drug discovery domains.

연구 동기 및 목표

  • 다중 시각적 분자 표현(1D 토큰, 2D 그래프, 3D 콘포머)을 대규모 사전학습과 통합하여 안정적인 QSAR 모델을 구축한다.
  • 수작업 하이퍼파라미터 튜닝이나 모델 선택이 필요 없는 Auto-ML 파이프라인을 개발한다.
  • 자체 감독 사전학습과 효율적 병렬 워크플로우를 활용하여 ADMET/TDC 벤치마크 성능을 개선한다.
  • CNS 신약 개발에서의 실용적 활용도를 입증하고 핵심 구성 요소를 검증하기 위한 ablation 연구를 탐구한다.

제안 방법

  • 1D SMILES 기반 토큰, 2D 토폴로지 그래프, 3D 콘포머를 사전학습 모델과 융합하여 분자 표현 학습(MRL)을 수행한다.
  • 전통적 지문(Morgan)과 디스크립터를 신경 표현의 선험(prior)으로 함께 활용한다.
  • 편향된 타깃에서도 회귀를 안정시키기 위해 자동 타깃 정규화(auto target normalization)를 적용한다.
  • 1D/2D/3D 입력에서 다양한 기본 학습기를 앙상블하기 위한 이중 단계 스태킹(auto stacking)을 구현한다.
  • 모델 선택과 하이퍼파라미터 튜닝을 자동화하기 위해 Dflow에서 베이지안 최적화를 기반으로 한 워크플로우를 사용한다.
  • 이중 단계 스태킹을 통한 앙상블과 2단계의 간단한 평균을 통해 최종 성능을 향상시킨다.

실험 결과

연구 질문

  • RQ1Uni-QSAR가 1D, 2D, 3D 표현과 사전학습을 공동 활용하면서 수작업 조정 없이 분자 특성 예측을 개선할 수 있는가?
  • RQ2자동 스태킹과 타깃 정규화가 불균형하거나 왜곡된 ADMET 데이터셋에서 예측 성능에 어떤 영향을 미치는가?
  • RQ33D 사전학습(Uni-Mol)의 기여도가 전체 QSAR 성능에 얼마나 기여하는가?
  • RQ4병렬 Dflow 기반 워크플로우가 속도와 자원 활용을 가속화하면서 정확도를 저하시키지 않는가?
  • RQ5CNS 약물 발견과 같은 실용적 약물 발견 태스크에 Uni-QSAR가 일반화될 수 있는가?

주요 결과

  • Uni-QSAR는 Therapeutic Data Commons(TDC) 태스크 22개 중 21개에서 최첨단 성능을 달성했고 평균 6.09% 향상을 기록했다.
  • 순수 3D 사전학습 모델(Uni-Mol)이 ablation에서 평균 성능을 크게 향상시켰다.
  • 자동 스태킹과 자동 타깃 정규화는 특히 왜곡된 타깃에서 최종 성능에 의미 있게 기여한다.
  • CNS 약물 태스크에서 Uni-QSAR는 베이스라인에 비해 강한 엔리치먼트 및 외부 검증 성능을 보인다.
  • 병렬 워크플로우를 사용한 Borihum은 학습을 가속화하여 실험에서 약 2배의 속도 향상을 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.