[논문 리뷰] Therapeutics Data Commons: Machine Learning Datasets and Tasks for Therapeutics
Therapeutics Data Commons (TDC)는 약물 개발 분야에서 66개의 머신러닝 준비 완료 데이터셋과 22개의 치료적 과제를 통합하는 오픈소스 프레임워크로, 체계적인 모델 평가, 데이터 처리 및 분자 생성을 가능하게 한다. 이 프레임워크는 생물의학적 및 임상적 번역을 위해 표준화된 도구, 랭킹 순위, 데이터 분할을 제공함으로써 알고리즘 혁신을 가속화한다.
Machine learning for therapeutics is an emerging field with incredible opportunities for innovation and expansion. Despite the initial success, many key challenges remain open. Here, we introduce Therapeutics Data Commons (TDC), the first unifying framework to systematically access and evaluate machine learning across the entire range of therapeutics. At its core, TDC is a collection of curated datasets and learning tasks that can translate algorithmic innovation into biomedical and clinical implementation. To date, TDC includes 66 machine learning-ready datasets from 22 learning tasks, spanning the discovery and development of safe and effective medicines. TDC also provides an ecosystem of tools, libraries, leaderboards, and community resources, including data functions, strategies for systematic model evaluation, meaningful data splits, data processors, and molecule generation oracles. All datasets and learning tasks are integrated and accessible via an open-source library. We envision that TDC can facilitate algorithmic and scientific advances and accelerate development, validation, and transition into production and clinical implementation. TDC is a continuous, open-source initiative, and we invite contributions from the research community. TDC is publicly available at this https URL.
연구 동기 및 목표
- 머신러닝을 통한 치료적 분야에 대한 표준화되고 통합된 데이터셋과 평가 프레임워크의 부족을 해결한다.
- 약물 개발 및 연구 전반을 아우르는 다양한 치료적 데이터셋을 체계적으로 수집하고 정리한다.
- 모델 검증과 임상 적용을 가속화하기 위해 도구, 데이터 프로세서, 평가 전략을 통합한 일관된 생태계를 제공한다.
- 의미 있는 데이터 분할과 랭킹 순위를 통한 벤치마킹을 통해 재현 가능하고 체계적인 모델 평가를 가능하게 한다.
- 장기적인 과학적 영향을 위해 지속 가능한 프레임워크를 확장하기 위한 커뮤니티 주도 기여를 촉진한다.
제안 방법
- 약물 발견, 독성 예측, 약동학 등 다양한 치료 분야에서 66개의 머신러닝 준비 완료 데이터셋을 수집한다.
- 표적 식별에서 임상 결과까지 약물 개발 파이프라인 전반을 아우르는 22개의 표준화된 학습 과제를 정의한다.
- 데이터 접근, 전처리, 모델 평가를 원활하게 구현하기 위한 모듈식 오픈소스 라이브러리를 구현한다.
- 분자 생성을 위한 데이터 프로세서와 오라클을 통합하여 약물 설계 분야에서 생성형 AI 응용을 지원한다.
- 데이터 누출을 방지하고 현실적인 모델 평가를 보장하기 위해 체계적인 데이터 분할(예: 화합물, 타겟, 시간 기반)을 구현한다.
- 모델 성능을 다양한 과제와 데이터셋 간에 비교 평가할 수 있도록 랭킹 순위와 평가 프로토콜을 개발한다.
실험 결과
연구 질문
- RQ1통합 프레임워크는 치료적 분야에서 머신러닝의 재현 가능성과 벤치마킹을 어떻게 향상시킬 수 있는가?
- RQ2머신러닝을 위한 다양한 치료적 데이터셋을 체계적으로 수집하고 정리하는 데 있어 핵심 과제는 무엇인가?
- RQ3체계적인 데이터 분할과 평가 프로토콜은 모델의 일반화 능력과 임상적 관련성을 어떻게 향상시키는가?
- RQ4표준화된 도구와 커뮤니티 기여는 약물 발견 분야의 혁신을 얼마나 가속화할 수 있는가?
- RQ5중앙집중식 오픈소스 생태계는 치료적 분야에서 생성형 모델과 분류형 모델을 동시에 효과적으로 지원할 수 있는가?
주요 결과
- TDC는 22개의 치료적 과제를 통해 66개의 정제된 머신러닝 준비 완료 데이터셋에 액세스할 수 있으며, 이는 약물 개발 및 연구 분야에 넓은 적용 가능성을 제공한다.
- 프레임워크는 데이터 누출을 줄이고 모델 일반화 능력을 향상시키기 위해 표준화된 데이터 분할과 평가 프로토콜을 포함한다.
- TDC는 오라클을 포함한 분자 생성을 위한 도구를 통합하여 생성형 AI를 활용한 새로운 치료제 설계를 지원한다.
- 오픈소스 라이브러리는 재현 가능한 연구를 위해 데이터셋, 데이터 프로세서, 평가 워크플로우를 원활하게 통합할 수 있도록 한다.
- TDC는 커뮤니티 기여를 지원하여 플랫폼의 지속적인 확장과 장기적 지속 가능성을 확보한다.
- 생태계는 랭킹 순위와 평가 전략을 포함하여 다양한 치료적 과제에서 머신러닝 모델의 비교 및 벤치마킹을 촉진한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.