Skip to main content
QUICK REVIEW

[논문 리뷰] Therapeutics Data Commons: Machine Learning Datasets and Tasks for Drug Discovery and Development

Kexin Huang, Tianfan Fu|arXiv (Cornell University)|2021. 02. 18.
Computational Drug Discovery Methods인용 수 145
한 줄 요약

Therapeutics Data Commons (TDC)는 약물 발견 및 개발을 위한 22개의 학습 작업에 걸친 66개의 AI-준비 데이터셋과 함께 평가 도구, 분자 생성 오라클, 리더보드 및 Python 라이브러리를 제공합니다.

ABSTRACT

Therapeutics machine learning is an emerging field with incredible opportunities for innovatiaon and impact. However, advancement in this field requires formulation of meaningful learning tasks and careful curation of datasets. Here, we introduce Therapeutics Data Commons (TDC), the first unifying platform to systematically access and evaluate machine learning across the entire range of therapeutics. To date, TDC includes 66 AI-ready datasets spread across 22 learning tasks and spanning the discovery and development of safe and effective medicines. TDC also provides an ecosystem of tools and community resources, including 33 data functions and types of meaningful data splits, 23 strategies for systematic model evaluation, 17 molecule generation oracles, and 29 public leaderboards. All resources are integrated and accessible via an open Python library. We carry out extensive experiments on selected datasets, demonstrating that even the strongest algorithms fall short of solving key therapeutics challenges, including real dataset distributional shifts, multi-scale modeling of heterogeneous data, and robust generalization to novel data points. We envision that TDC can facilitate algorithmic and scientific advances and considerably accelerate machine-learning model development, validation and transition into biomedical and clinical implementation. TDC is an open-science initiative available at https://tdcommons.ai.

연구 동기 및 목표

  • AI-준비 약물 데이터와 표준화된 학습 작업의 필요성에 동기를 부여한다.
  • 치료제 ML를 위한 데이터셋, 작업 및 평가 자원을 정리하는 통합 플랫폼(TDC)의 설계를 제시한다.
  • 탐색에서 개발에 이르는 범위를 아우르는 66개 데이터셋과 작업의 다양성(단일 인스턴스, 다중 인스턴스, 생성)을 선보인다.
  • 엄격한 벤치마킹을 가능하게 하는 평가 전략, 데이터 분할 및 리더보드 생태계를 강조한다.
  • Python 패키지와 커뮤니티 리소스를 통해 오픈 사이언스 접근성을 입증한다.

제안 방법

  • 단일 인스턴스, 다중 인스턴스, 생성이라는 문제로 사실을 묶는 3단계 모듈식 설계를 소개한다.
  • 작업당 다수의 AI-준비 데이터셋과 표준화된 메타데이터를 포함해 22개의 학습 작업을 정의한다.
  • 현실 배치를 시뮬레이션하기 위해 23개의 모델 평가 전략과 5가지 데이터셋 분할 유형을 제공한다.
  • 공정한 벤치마킹을 가능하게 하는 17개의 분자 생성 오라클과 29개의 공개 리더보드를 제공한다.
  • 모든 데이터셋, 작업 및 평가 도구에 접근할 수 있는 오픈 소스 Python 패키지를 제공합니다.
  • 도메인 특화 및 최첨단 방법을 사용한 24개의 TDC 데이터셋에 대한 실증 벤치마크를 제시한다.

실험 결과

연구 질문

  • RQ1치료제 발견 및 개발 파이프라인을 포괄하기 위해 어떤 학습 작업과 데이터셋이 필요한가?
  • RQ2치료제 ML 벤치마크에서 다양한 데이터 모달리티와 분포 변화는 어떻게 처리할 수 있는가?
  • RQ3현재 최첨단 모델이 치료제 벤치마크에서 성능을 포화시키는가, 아니면 알고리즘 개선의 여지가 있는가?
  • RQ4실제 배치 및 임상 전환을 가장 잘 반영하는 평가 프로토콜은 무엇인가?
  • RQ5TDC가 작업 간 일반화와 공정한 모델 비교를 어떻게 촉진하는가?

주요 결과

  • TDC는 ADMET, DTI, 도킹, 생성에 걸친 22개 작업에 걸친 66개의 AI-준비 데이터셋을 모으고, 오픈 Python 라이브러리를 통해 통합한다.
  • 24개의 TDC 벤치마크에 대한 광범위한 실험은 강력한 알고리즘도 분포 변화, 다중 규모의 이질적 데이터, 새로운 입력에 대한 일반화에서 여전히 어려움을 겪는다는 것을 보여준다.
  • 도메인 특화 방법이 일반적인 최첨단 모델과 같거나 더 우수한 경우가 많아 엄격한 평가 프레임워크와 실제 벤치마크의 필요성을 강조한다.
  • TDC는 치료제 분야의 개방형 ML 과제로 저자원 학습, 다중 모달/지식 그래프 학습, 분포 변화, 그리고 인과 추론을 식별한다.
  • 이 플랫폼은 29개의 리더보드와 33개의 데이터 프로세서를 제공해 강건하고 재현 가능한 모델 비교 및 잠재적 임상 번역을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.