[논문 리뷰] State-specific protein-ligand complex structure prediction with a multi-scale deep generative model
NeuralPLexer는 단일 구조의 단백질 접힘을 넘어 단백질-리간드 복합체 및 그에 의해 유도되는 구형 변화의 예측 필요성을 동기화하고, 단백질 서열과 리간드 그래프에서 복합체 구조를 예측하며, 최신 수준의 도킹 및 결합 부위 구조 회복을 달성한다(큰 구성 변화 포함).
The binding complexes formed by proteins and small molecule ligands are ubiquitous and critical to life. Despite recent advancements in protein structure prediction, existing algorithms are so far unable to systematically predict the binding ligand structures along with their regulatory effects on protein folding. To address this discrepancy, we present NeuralPLexer, a computational approach that can directly predict protein-ligand complex structures solely using protein sequence and ligand molecular graph inputs. NeuralPLexer adopts a deep generative model to sample the 3D structures of the binding complex and their conformational changes at an atomistic resolution. The model is based on a diffusion process that incorporates essential biophysical constraints and a multi-scale geometric deep learning system to iteratively sample residue-level contact maps and all heavy-atom coordinates in a hierarchical manner. NeuralPLexer achieves state-of-the-art performance compared to all existing methods on benchmarks for both protein-ligand blind docking and flexible binding site structure recovery. Moreover, owing to its specificity in sampling both ligand-free-state and ligand-bound-state ensembles, NeuralPLexer consistently outperforms AlphaFold2 in terms of global protein structure accuracy on both representative structure pairs with large conformational changes (average TM-score=0.93) and recently determined ligand-binding proteins (average TM-score=0.89). Case studies reveal that the predicted conformational variations are consistent with structure determination experiments for important targets, including human KRAS$^ extrm{G12C}$, ketol-acid reductoisomerase, and purine GPCRs. Our study suggests that a data-driven approach can capture the structural cooperativity between proteins and small molecules, showing promise in accelerating the design of enzymes, drug molecules, and beyond.
연구 동기 및 목표
- 단일 구조 단백질 접힘을 넘어 단백질-리간드 복합체 및 그로 인한 구형 변화의 예측 필요성을 동기화한다.
- 단백질 서열과 리간드 그래프를 입력으로 받아 3D 복합체 구조를 샘플링하는 엔드-투-엔드 생성 프레임워크를 개발한다.
- 글로벌 맥락과 국소 상호작용을 모두 포착하기 위해 다중 스케일 아키텍처를 통한 생물물리학적 귀납적 바이어스를 통합한다.
- 다양한 벤치마크에서 블라인드 도킹과 결합부위 구조 회복에 있어 최첨단 성능을 입증한다.
제안 방법
- 자회귀 접촉 예측과 확산 기반 등변성 구조 노이즈 제거 모듈을 결합한 다중 스케일 생성 모델을 활용한다.
- 리간드와 단백질 패치를 분자 열 트랜스포머(Molecular Heat Transformer)와 프레임 기반 표현을 사용하여 풍부한 임베딩을 얻는다.
- 잔기(residue) 및 리간드-잔기 접촉 분포를 자동회귀적으로 샘플링하여 거친 근접 맵을 구성한다.
- 입체화 대칭을 고려한 그래프 트랜스포머를 갖춘 등방확산 프로세스를 사용하여 원자 수준 좌표를 생성한다.
- 단백질 언어 모델 임베딩(ESM-2)과 AF2 템플릿을 보조 입력으로 사용하여 생성 조건을 설정한다.
- 연락 맵 교차 엔트로피와 구조 노이즈 제거 항을 결합한 손실로 PL2019-74k 데이터셋에서 학습한다.
실험 결과
연구 질문
- RQ1깊은 생성 모델이 단백질 서열과 리간드 그래프에서 엔드-투-엔드로 리간드 결합 복합체 구조를 예측할 수 있는가?
- RQ2리간드 결합 시 구체적 변화를 포함한 구동-적합(induced-fit) 상황을 모델이 얼마나 잘 포착하는가?
- RQ3PLM과 템플릿 구조를 통합하는 것이 단독으로 서열/그래프 입력만 사용할 때보다 원자 수준의 복합체 예측을 개선하는가?
- RQ4현존하는 최첨단 방법과 비교하여 블라인드 도킹과 결합부위 회복에서 방법의 성능은 어떠한가?
주요 결과
- NeuralPLexer는 블라인드 단백질-리간드 도킹 벤치마크에서 최첨단 성능을 달성하고, PDBBind2020에서 기존 최상 방법 대비 리간드 포즈 정확도를 최대 78%까지 향상시켰다.
- 결합부위 설계 작업에서 NeuralPLexer는 잘려진 골격을 사용하여 결합부위 구조의 최대 46%를 회복했고, Rosetta 대비 약 59%의 향상을 보였다.
- 큰 구성을 가진 리간드 결합 단백질의 경우 NeuralPLexer는 두 개의 큐레이션된 벤치마크 데이터셋에서 최고 TM-score(평균 0.906)를 달성해 AlphaFold2보다 11–13% 앞섰다.
- 예측된 구상 변동은 인간 KRAS G12C, ketol-acid reductoisomerase, purine GPCRs와 같은 표적에 대한 실험적 구조 결정과 일치한다.
- 인페인팅 기반 결합부위 모델링은 AF2-가이드 베이스라인에 비해 충돌률이 낮고 결합 포켓 정확도가 경쟁력을 가진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.