[논문 리뷰] Scaffold Splits Overestimate Virtual Screening Performance
이 논문은 스캐폴드(scaffold) 기반 데이터 분할이 가상 스크리닝 성능을 과대평가하게 만들며, 서로 다른 골격 간 유사성이 학습-테스트 간 유사성을 부풀릴 수 있음을 보여준다; UMAP 기반 분할은 모델과 데이터 세트 전반에서 더 나쁜 성능을 드러낸다.
Virtual Screening (VS) of vast compound libraries guided by Artificial Intelligence (AI) models is a highly productive approach to early drug discovery. Data splitting is crucial for better benchmarking of such AI models. Traditional random data splits produce similar molecules between training and test sets, conflicting with the reality of VS libraries which mostly contain structurally distinct compounds. Scaffold split, grouping molecules by shared core structure, is widely considered to reflect this real-world scenario. However, here we show that the scaffold split also overestimates VS performance. The reason is that molecules with different chemical scaffolds are often similar, which hence introduces unrealistically high similarities between training molecules and test molecules following a scaffold split. Our study examined three representative AI models on 60 NCI-60 datasets, each with approximately 30,000 to 50,000 molecules tested on a different cancer cell line. Each dataset was split with three methods: scaffold, Butina clustering and the more accurate Uniform Manifold Approximation and Projection (UMAP) clustering. Regardless of the model, model performance is much worse with UMAP splits from the results of the 2100 models trained and evaluated for each algorithm and split. These robust results demonstrate the need for more realistic data splits to tune, compare, and select models for VS. For the same reason, avoiding the scaffold split is also recommended for other molecular property prediction problems. The code to reproduce these results is available at https://github.com/ScaffoldSplitsOverestimateVS
연구 동기 및 목표
- 스캐폴드 기반 데이터 분할이 가상 스크리닝(VS)에 대해 AI 모델의 실제 벤치마크가 되는지 평가한다.
- 다양한 VS 유사 데이터 세트에서 스캐폴드 분할과 클러스터링 기반 분할(Butina, UMAP)을 비교한다.
- 대규모 화합물 라이브러리에서 분할 방법론이 보고된 모델 성능에 어떤 영향을 주는지 평가한다.
제안 방법
- 스캐폴드, Butina 클러스터링, UMAP 클러스터링의 세 가지 데이터 분할 전략을 사용한다.
- 60개의 NCI-60 데이터세트에서 세 가지 대표 AI 모델을 훈련하고 평가한다(데이터세트당 약 3만~5만 분자).
- 알고리즘과 분할에 걸쳐 2100건의 모델 평가를 분석하여 성능을 비교한다.
- 스캐폴드 기반 분할이 훈련세트와 시험세트 간의 유사도를 더 현실적인 분할에 비해 어떻게 부풀리는지 평가한다.
실험 결과
연구 질문
- RQ1스캐폴드 분할이 클러스터링 기반 분할에 비해 VS 성능을 과대평가하는가?
- RQ2대규모 VS 유사 데이터세트에서 UMAP 및 Butina 클러스터링 분할이 모델 성능에 어떤 영향을 미치는가?
- RQ3스캐폴드 분할이 VS 모델에 대해 지나치게 낙관적인 벤치마크를 제공하는가, 그렇다면 얼마나 큰가?
- RQ4다른 분자 특성 예측 작업에서도 스캐폴드 분할을 피해야 하는가?
주요 결과
- 스캐폴드 분할은 모델과 데이터세트 전반에서 더 현실적인 분할보다 보고된 성능이 더 높게 나타난다.
- UMAP 기반 분할은 현저히 더 나쁜 성능을 보이며, 스캐폴드 분할이 VS 데이터 분할의 현실적 대리로서의 개념에 의문을 제기한다.
- 본 연구는 60개 데이터세트에서 세 가지 분할 방법과 여러 모델에 걸쳐 2100건의 모델 평가를 분석하여 견고한 경향을 나타낸다.
- 결과는 VS 벤치마킹과 잠재적으로 다른 분자 특성 예측 문제에서도 스캐폴드 분할을 피할 것을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.