[논문 리뷰] DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise Annotations
DrugOOD는 현실적인 노이즈 주석 및 도메인 분할에 초점을 맞춘 AI 보조 약물 발견을 위한 자동화된 OOD 데이터셋 큐레이터 및 벤치마크를 제공합니다.
AI-aided drug discovery (AIDD) is gaining increasing popularity due to its promise of making the search for new pharmaceuticals quicker, cheaper and more efficient. In spite of its extensive use in many fields, such as ADMET prediction, virtual screening, protein folding and generative chemistry, little has been explored in terms of the out-of-distribution (OOD) learning problem with \emph{noise}, which is inevitable in real world AIDD applications. In this work, we present DrugOOD, a systematic OOD dataset curator and benchmark for AI-aided drug discovery, which comes with an open-source Python package that fully automates the data curation and OOD benchmarking processes. We focus on one of the most crucial problems in AIDD: drug target binding affinity prediction, which involves both macromolecule (protein target) and small-molecule (drug compound). In contrast to only providing fixed datasets, DrugOOD offers automated dataset curator with user-friendly customization scripts, rich domain annotations aligned with biochemistry knowledge, realistic noise annotations and rigorous benchmarking of state-of-the-art OOD algorithms. Since the molecular data is often modeled as irregular graphs using graph neural network (GNN) backbones, DrugOOD also serves as a valuable testbed for \emph{graph OOD learning} problems. Extensive empirical studies have shown a significant performance gap between in-distribution and out-of-distribution experiments, which highlights the need to develop better schemes that can allow for OOD generalization under noise for AIDD.
연구 동기 및 목표
- 분포 이동과 라벨 노이즈 하에서 AI 보조 약물 발견(AIDD)의 강건한 일반화를 고무한다.
- ChEMBL를 기반으로 한 고도로 맞춤 가능하고 재현 가능한 OOD 데이터셋 큐레이션 파이프라인을 제공한다.
- 현실 세계의 도메인 및 노이즈 수준을 주석화하여 모델의 현실적인 평가를 가능하게 한다.
- LBAP 및 SBAP 작업에 걸친 96개의 실현된 데이터셋에서 최첨단 OOD 알고리즘을 벤치마크한다.
제안 방법
- 구성 가능한 노이즈 및 도메인 정의를 갖춘 ChEMBL로부터 OOD 데이터셋을 구축하는 자동화된 데이터셋 큐레이터.
- 생화학 지식에 맞춘 풍부한 도메인 주석으로 타깃- 및 분자 중심의 도메인을 정의한다.
- 세 가지 노이즈 수준(core, refined, general)을 신뢰도 점수, 값 관계, 그리고 어세이 특성으로 주석화한다.
- 그래프 및 트랜스포머 기반 백본으로 여섯 가지 SOTA OOD 알고리즘을 평가하는 벤치마크 체계.
- 리간드 기반 친화도 예측(LBAP)과 구조 기반 친화도 예측(SBAP) 모두를 지원한다.
- 데이터 큐레이션, 로딩 및 알고리즘 구성을 자동화하는 오픈 소스 파이썬 패키지를 제공합니다.
실험 결과
연구 질문
- RQ1현실적인 노이즈 하에서 AIDD 친화도 예측에서 분포 내 설정으로 학습된 모델이 보이지 않는 도메인에 일반화되는가?
- RQ2다른 노이즈 수준에서 분포 내(targets)와 분포 밖(out-of-distribution) 타깃 및 어세이 간의 성능 차이는 어느 정도인가?
- RQ3LBAP 및 SBAP 과제에서 도메인 이동과 노이즈 라벨에 직면했을 때 최첨단 OOD 알고리즘의 효율성은 어떠한가?
- RQ4DrugOOD의 큐레이션 데이터셋이 약물 발견에서 그래프 기반 OOD 학습의 현실적인 테스트베드로 기능할 수 있는가?
주요 결과
- OOD 설정에서 보이지 않는 도메인 간 평가 시 보이는 도메인과 비교하여 성능이 크게 감소한다.
- 다양한 노이즈 수준(core, refined, general)이 데이터셋 크기와 노이즈 원인에 영향을 주어 모델의 견고성에 영향을 미친다.
- 최첨단 OOD 방법은 도메인 이동 및 노이즈 주석에서 서로 다른 효능을 보이며, AIDD에서 노이즈 하의 OOD 일반화 개선의 필요성을 강조한다.
- LBAP 및 SBAP 벤치마크는 OOD 조건에서 그래프 기반 및 시퀀스 기반 백본을 사용한 친화도 예측의 가능성을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.