QUICK REVIEW

[논문 리뷰] Look mom, no experimental data! Learning to score protein-ligand interactions from simulations

Michael Brocidiacono, James Wellnitz|ArXiv.org|2025. 05. 31.

Computational Drug Discovery Methods인용 수 3

한 줄 요약

본 논문은 Ligand Force Matching (LFM)을 도입합니다. 이는 각 표적에 대해 MD 시뮬레이션 데이터로 학습된 신경망으로 단백질-리간드 결합을 PMF 기반 자유 에너지 지형을 학습하여 점수화하며, 단백질당 100-500 µs의 표적 특이 MD를 사용하여 가상 스크리닝 성능이 경쟁력 있게 나타납니다.

ABSTRACT

Despite recent advances in protein-ligand structure prediction, deep learning methods remain limited in their ability to accurately predict binding affinities, particularly for novel protein targets dissimilar from the training set. In contrast, physics-based binding free energy calculations offer high accuracy across chemical space but are computationally prohibitive for large-scale screening. We propose a hybrid approach that approximates the accuracy of physics-based methods by training target-specific neural networks on molecular dynamics simulations of the protein in complex with random small molecules. Our method uses force matching to learn an implicit free energy landscape of ligand binding for each target. Evaluated on six proteins, our approach achieves competitive virtual screening performance using 100-500 $μ$s of MD simulations per target. Notably, this approach achieves state-of-the-art early enrichment when using the true pose for active compounds. These results highlight the potential of physics-informed learning for virtual screening on novel targets. We publicly release the code for this paper at https://github.com/molecularmodelinglab/lfm under the MIT license.

연구 동기 및 목표

단백질-리간드 결합에 대한 점수화를 순수 ML 또는 순수 물리 기반 방법보다 개선하려는 동기 부여.
MD 유도 힘 데이터를 이용해 리간드 결합의 PMF를 근사하는 표적별 신경망을 제안합니다.
물리-informed 정확성을 유지하면서 가상 스크리닝을 위한 빠른 점수화를 가능하게 합니다.
여러 표적에 대한 성능을 시연하고 포즈 민감도 및 일반화 가능성을 분석합니다.
재현성과 향후 개발을 촉진하기 위한 코드와 데이터를 공개합니다.

제안 방법

목표 결합 부위에 무작위 소분자들을 배치하고 짧은 알케미컬 프렙 및 MD를 실행하여 충돌을 제거하는 MD 기반 학습 데이터를 생성합니다.
힘 매칭을 통해 간극을 이루는 intermolecular PMF G_PMF에서 intramolecular 항을 뺀 값을 근사하도록 신경망을 훈련하며, 힘과 COM 토크를 맞추는 손실을 사용합니다.
원자-ML 임베딩과 등가 변환기를 통해 리간드 특성과 좌표를 임베딩하여 PMF 도출 에너지를 예측합니다.
도킹된 자세에 대해 f(x)를 계산하고 용매 참조 자세에서 f(x_solv)를 빼 ΔG_binding을 추정하여 도킹 자세를 점수화합니다(고정된 리간드 가정).
모델 학습을 위해 힘 매칭 손실과 COM 힘 및 토크 손실에 가중치를 둔 손실을 사용합니다.
표적 여섯 개에 대해 각 표적당 100-500 µs MD를 수행하고 Vina, Gnina, DiffDock 기반 도킹 앙상블과 비교 평가합니다.

실험 결과

연구 질문

RQ1MD 유도 힘 데이터로 학습된 표적별 신경망이 단백질-리간드 결합의 PMF를 충분히 근사하여 가상 스크리닝을 개선할 수 있는가?
RQ2도킹 자세와 실제 리간드 자세를 사용할 때 LFM의 성능은 전통적 스코어링 방법에 비해 어떤 차이가 있는가?
RQ3학습 데이터에 없는 신규 표적에 대해 도메인 내에서의 경쟁력과 일반화 가능성은 어떠한가?
RQ4경쟁력 있는 향상을 달성하기 위한 표적당 MD 데이터 필요 시간은 어느 정도인가?

주요 결과

모델	EF^B_max	EF^B_1%	AUC
Vina (UD)	9.7 [3.4, 15]	1.9 [0.86, 2.7]	0.54 ± 0.03
Gnina (UD)	6.9 [4.2, 14]	3.7 [2.1, 4.5]	0.59 ± 0.02
LFM (UD)	4.6 [3.3, 14]	2.0 [1.2, 3.1]	0.52 ± 0.02
Vina (DD)	16 [4.7, 25]	3.5 [2.0, 4.4]	0.60 ± 0.02
Gnina (DD)	13 [7.7, 27]	5.8 [3.9, 7.3]	0.68 ± 0.02
LFM (DD)	14 [7.8, 33]	6.2 [3.6, 8.7]	0.58 ± 0.03

true 공동 결정 자세를 사용할 때 LFM은 여러 표적에서 활성화 물질에 대한 초기 향상도에서 최첨단 성능을 달성했습니다.
도킹 자세를 사용할 때 LFM의 성능은 베이스라인 스코어러와 경쟁적이며 자세 민감성이 강하고 자세 선택에서 탁월한 성능을 보입니다.
DiffDock 또는 더 정확한 도킹을 사용하면 향상이 증가하며crystal 자세가 LFM에 큰 이점을 제공합니다.
표적당 MD 데이터가 100-500 µs인 경우 여섯 개 단백질에서 경쟁력 있는 향상도를 달성하며 비용은 합리적입니다(약 $1K per target).
LFM 추론은 빠르며 L40 GPU에서 분자당 평균 ~2.5초로 대규모 스크리닝이 가능합니다.
진짜 자세를 사용할 때 포즈 재랭킹에서 우수한 성능을 보였으며 물리-informed이고 자세에 민감한 특성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.