[논문 리뷰] TorchDrug: A Powerful and Flexible Machine Learning Platform for Drug Discovery
TorchDrug는 약물 발견 작업을 위한 저수준에서 고수준 도구를 제공하는 PyTorch 기반 오픈소스 플랫폼으로, 특성 예측, 사전 학습된 표현, 신약 설계(de novo design), retrosynthesis, 생물의학 지식 그래프 추론에 걸친 빠른 프로토타이핑을 가능하게 한다.
Machine learning has huge potential to revolutionize the field of drug discovery and is attracting increasing attention in recent years. However, lacking domain knowledge (e.g., which tasks to work on), standard benchmarks and data preprocessing pipelines are the main obstacles for machine learning researchers to work in this domain. To facilitate the progress of machine learning for drug discovery, we develop TorchDrug, a powerful and flexible machine learning platform for drug discovery built on top of PyTorch. TorchDrug benchmarks a variety of important tasks in drug discovery, including molecular property prediction, pretrained molecular representations, de novo molecular design and optimization, retrosynthsis prediction, and biomedical knowledge graph reasoning. State-of-the-art techniques based on geometric deep learning (or graph machine learning), deep generative models, reinforcement learning and knowledge graph reasoning are implemented for these tasks. TorchDrug features a hierarchical interface that facilitates customization from both novices and experts in this domain. Tutorials, benchmark results and documentation are available at https://torchdrug.ai. Code is released under Apache License 2.0.
연구 동기 및 목표
- 도메인 지식 격차와 표준 벤치마크의 부족으로 약물 발견에서 유연한 ML 플랫폼의 필요성을 제시합니다.
- 초보자의 진입 장벽을 낮추는 계층적 인터페이스를 제공하면서 전문가의 사용자 정의를 가능하게 한다.
- 주요 약물 발견 문제 전반에 걸친 실험 속도를 높이기 위한 포괄적인 작업과 벤치마크를 제공한다.
- 개발의 효율성을 높이기 위한 재사용 가능한 구성요소(데이터 구조, 계층, 모델)와 작업 단위 루틴을 제시한다.
제안 방법
- GPU 가속 그래프 연산으로 균일 그래프, 지식 그래프, 분자를 일급 데이터 구조로 도입한다.
- 5개의 약물 발견 작업에 걸친 30개의 데이터세트를 포함하는 PyTorch-유사 Dataset 인터페이스를 제공한다.
- 데이터 처리, 모델 구성, 작업 실행을 위한 저수준, 중간 수준, 고수준 API를 제공한다.
- TorchDrug 내에서 그래프 학습, 심층 생성 모델, 강화 학습, 지식 그래프 추론의 최첨단 기술을 구현한다.
- 다른 전문 지식 수준의 연구자들을 위한 빠른 프로토타이핑과 사용자 정의를 지원하는 계층적 인터페이스를 설명한다.
실험 결과
연구 질문
- RQ1통합적이고 모듈식인 플랫폼이 여러 작업에 걸친 약물 발견 분야의 기계 학습 연구를 어떻게 가속화할 수 있는가?
- RQ2효과적인 벤치마킹과 빠른 프로토타이핑을 가능하게 하려면 어떤 데이터세트, 모델, 작업들을 묶어야 하는가?
- RQ3TorchDrug가 표준 PyTorch 워크플로와 통합되는 GPU 가속 도메인에 구애받지 않는 그래프 연산을 제공할 수 있는가?
- RQ4계층적 API 설계가 초보자의 사용성과 전문가의 유연성에 미치는 영향은 무엇인가?
주요 결과
- TorchDrug는 GPU 가속 연산과 PyTorch-스타일 인터페이스를 갖춘 데이터 구조(그래프, 지식 그래프, 분자)를 제공한다.
- 데이터세트 모듈은 5개의 약물 발견 작업을 포함하는 30개의 일반적인 데이터세트를 포함한다.
- TorchDrug는 특성 예측, 사전 학습된 분자 표현, de novo 분자 설계 및 최적화, retrosynthesis, 생물의학 지식 그래프 추론 등 다양한 작업을 지원한다.
- 이 플랫폼은 기하학적 딥러닝, 심층 생성 모델, 강화 학습, 지식 그래프 추론 등의 최첨단 기술을 생태계 내에서 브랜드화한다.
- TorchDrug는 2021년 8월 출시 이후 PyPI 및 Anaconda에서 5,000건이 넘는 다운로드로 주목할 만한 채택을 이뤘다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.