Skip to main content
QUICK REVIEW

[논문 리뷰] SPLDExtraTrees: Robust machine learning approach for predicting kinase inhibitor resistance

Ziyi Yang, Zhaofeng Ye|arXiv (Cornell University)|2021. 11. 15.
Computational Drug Discovery Methods참고 문헌 64인용 수 12
한 줄 요약

이 논문은 단일 변동점 돌연변이에 의해 유도되는 키나제 억제제 저항성을 예측하기 위해 자기주도학습(self-paced learning)과 극도로 랜덤화된 회귀 트리(extra randomized regression trees)를 융합한 강력한 기계학습 방법인 SPLDExtraTrees를 제안한다. 쉬운 학습 샘플과 다양한 샘플을 반복적으로 학습하면서 물리기반의 구조적 특징을 통합함으로써, 분자역학 및 Rosetta 방법과 유사한 예측 정확도를 달성하면서도 계산 비용을 크게 낮춘다. 특히 외삽 및 불균형 데이터 시나리오에서 뛰어난 성능을 발휘한다.

ABSTRACT

Drug resistance is a major threat to the global health and a significant concern throughout the clinical treatment of diseases and drug development. The mutation in proteins that is related to drug binding is a common cause for adaptive drug resistance. Therefore, quantitative estimations of how mutations would affect the interaction between a drug and the target protein would be of vital significance for the drug development and the clinical practice. Computational methods that rely on molecular dynamics simulations, Rosetta protocols, as well as machine learning methods have been proven to be capable of predicting ligand affinity changes upon protein mutation. However, the severely limited sample size and heavy noise induced overfitting and generalization issues have impeded wide adoption of machine learning for studying drug resistance. In this paper, we propose a robust machine learning method, termed SPLDExtraTrees, which can accurately predict ligand binding affinity changes upon protein mutation and identify resistance-causing mutations. Especially, the proposed method ranks training data following a specific scheme that starts with easy-to-learn samples and gradually incorporates harder and diverse samples into the training, and then iterates between sample weight recalculations and model updates. In addition, we calculate additional physics-based structural features to provide the machine learning model with the valuable domain knowledge on proteins for this data-limited predictive tasks. The experiments substantiate the capability of the proposed method for predicting kinase inhibitor resistance under three scenarios, and achieves predictive accuracy comparable to that of molecular dynamics and Rosetta methods with much less computational costs.

연구 동기 및 목표

  • 제한적이고 노이즈가 많은 훈련 데이터로 인해 단백질 돌연변이에 의한 리간드 결합 친화도 변화를 예측하는 기계학습 모델에서 과적합 및 일반화 부족 문제를 해결하기 위해.
  • 단백질 계열 다양성과 아미노산 변화 유형을 통한 도메인 지식 통합을 통해 데이터가 부족한 상황에서 예측의 강건성과 일반화 능력을 향상시키기 위해.
  • 키나제 억제제 저항성을 높은 예측 성능를 유지하면서도 분자역학 및 Rosetta에 비해 계산 비용이 낮은 효율적인 대안을 개발하기 위해.
  • 특히 희귀하거나 특성화되지 않은 돌연변이에 대해 저항성 유발 돌연변이를 정확하게 식별할 수 있도록 하기 위해.

제안 방법

  • 모델은 쉬운 학습 샘플(낮은 손실)부터 시작하여 점차 더 어려운, 다양한 샘플(다른 단백질 계열에서 온 것 포함)을 포함하는 자기주도학습(SPL) 전략을 사용한다.
  • 기본 추정기로 극도로 랜덤화된 회귀 트리(ExtraTrees)를 사용하며, 각 반복에서 예측 손실과 다양성에 기반해 샘플 가중치를 동적으로 재계산한다.
  • 추가로 Rosetta REF15 스코어링, FoldX, PLIP 및 기타 도구를 사용해 물리기반의 구조적 특징을 추출하여 모델에 도메인 전문 지식을 강화한다.
  • 훈련 과정은 모델 파라미터와 샘플 가중치를 반복적으로 업데이트하며, 예측 정확도와 샘플 다양성 양쪽을 강조하여 일반화 능력을 향상시킨다.
  • 자기주도학습 목표 함수에 다양성 정규화 항을 통합하여 다양한 단백질 계열에서 온 샘플을 우선시함으로써 모델의 강건성을 향상시킨다.
  • 다양한 소스(리간드 특성, 돌연변이 환경, 단백질-리간드 상호작용 등)에서 유래한 특징 중 가장 정보가 많은 특징(예: 총 146개)만 유지하기 위해 특징 선택을 수행한다.

실험 결과

연구 질문

  • RQ1제한적이고 노이즈가 많은 데이터에서 단백질 돌연변이에 의한 리간드 결합 친화도 변화를 예측하는 기계학습 모델의 일반화 능력을 향상시키기 위해 자기주도학습 전략이 효과적인가?
  • RQ2훈련 중 단백질 계열 다양성을 통합할 경우, 키나제 억제제 저항성을 예측하는 데 있어 모델 성능과 강건성에 어떤 영향을 미치는가?
  • RQ3이러한 데이터 부족 상황에서 물리기반의 구조적 특징이 기계학습 모델의 예측 정확도를 어느 정도 향상시킬 수 있는가?
  • RQ4예측 정확도와 계산 효율성 측면에서 SPLDExtraTrees는 분자역학 및 Rosetta와 같은 표준 기준 방법과 비교해 어떻게 성능을 내는가?
  • RQ5훈련 데이터에 목표 키나제 계열이 포함되지 않은 외삽 시나리오에서 모델이 저항성 유발 돌연변이를 효과적으로 식별할 수 있는가?

주요 결과

  • 외삽 시나리오에서 SPLDExtraTrees는 AUC 0.867을 달성하여 분자역학(A99)과 Rosetta(REF15)보다 10퍼센트 이상 높은 성능을 보였다.
  • 외삽 케이스에서 분자역학 대비 AUC 14% 향상, Rosetta 대비 13% 향상된 성능을 기록했다.
  • 정밀도-재현율 곡선에서 SPLDExtraTrees는 평균 정밀도(AP)가 ExtraTrees∗보다 18% 높아, 저항성 예측에서 더 적은 가짜 양성 결과를 보였다.
  • 가장 관련성이 높은 TKI 데이터셋으로 훈련했을 때, SPLDExtraTrees는 Rosetta(REF15)와 분자역학 시뮬레이션을 포함한 모든 경쟁 방법을 능가했다.
  • Rosetta REF15에서 유래한 물리기반 특징의 통합은 AUC 및 ROC 성능을 크게 향상시켰으며, 보조 그림 S10–S13에서 이를 확인할 수 있었다.
  • 단백질 계열 정보는 아미노산 변화 유형보다 더 효과적인 샘플 선택 기준이었지만, 후자는 비록 미미한 성능 향상이었지만 비극성에서 극성 전환 유형에 특히 유리한 성능 향상을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.