[논문 리뷰] DiffBP: Generative Diffusion of 3D Molecules for Target Protein Binding
DiffBP는 대상 단백질 조건에서 3D 분자 구조를 생성하기 위해 전체 원자-비자기회귀(diffusion) 모델을 사용하여 결합 친화도와 현실적인 약물성 특성을 높이려는 목표를 갖는다.
Generating molecules that bind to specific proteins is an important but challenging task in drug discovery. Previous works usually generate atoms in an auto-regressive way, where element types and 3D coordinates of atoms are generated one by one. However, in real-world molecular systems, the interactions among atoms in an entire molecule are global, leading to the energy function pair-coupled among atoms. With such energy-based consideration, the modeling of probability should be based on joint distributions, rather than sequentially conditional ones. Thus, the unnatural sequentially auto-regressive modeling of molecule generation is likely to violate the physical rules, thus resulting in poor properties of the generated molecules. In this work, a generative diffusion model for molecular 3D structures based on target proteins as contextual constraints is established, at a full-atom level in a non-autoregressive way. Given a designated 3D protein binding site, our model learns the generative process that denoises both element types and 3D coordinates of an entire molecule, with an equivariant network. Experimentally, the proposed method shows competitive performance compared with prevailing works in terms of high affinity with proteins and appropriate molecule sizes as well as other drug properties such as drug-likeness of the generated molecules.
연구 동기 및 목표
- 단백질 결합 부위에 조건화된 비자기회귀 물리-일관성 분자 생성 동기를 부여한다.
- 연속 좌표와 비연속 원자 종류에 대한 확산 모델을 사용하여 전체 원자 분자 구조를 에너지 기반의 공동 분포 추론으로 모델링한다.
- 3D 기하학적 대칭성을 존중하기 위해 SE(3) 등가성과 질량 중심 제약을 강제한다.
- 결합 친화도와 약물-유사 속성에 대해 DiffBP를 최첨단 자동회귀 방법과 비교 평가한다.
제안 방법
- 전체 원자 분자에 대해 연속 좌표와 이산 원자 종류에서의 확산 모델을 사용하여 p(M|P)를 형식화한다.
- Denoser로 SE(3)-등가 그래프 신경망을 사용해 복원된 좌표와 원자 종류를 예측한다.
- 전이 가능성을 보장하기 위해 질량 중심의 제로-센터-오브-매스 제약을 적용하고 회전 불변성은 확산 과정에 의존해 처리한다.
- 발생 중 분자-단백질 표면의 중첩을 막기 위해 교차(intersection) 정규화 손실을 도입한다.
- 확산 입력을 안정화하기 위해 사전 생성 GNN을 통해 분자 크기와 질량 중심을 미리 생성한다.
실험 결과
연구 질문
- RQ1비자기회귀 확산 모델이 대상 단백질 결합 부위에 조건화된 전체 원자 분자를 생성할 수 있는가?
- RQ2SE(3) 등가성과 질량 중심 제약을 강제하는 것이 물리적 타당성과 도킹 성능을 향상시키는가?
- RQ3생성된 분자가 크기 분포, 친화도, 약물-유사 속성 측면에서 자동회귀 기준선과 어떻게 비교되는가?
- RQ4교차 정규화 항이 분자 타당성과 도킹 품질에 미치는 영향은 무엇인가?
- RQ5확산 기반 접근법이 약물-유사 분포에 도달하거나 그 근처에서 유리한 화학적 특성(QED, SA, LPSK 등)을 가진 분자를 생산하는가?
주요 결과
- DiffBP는 선도적인 자동회귀 방법과 비교해 경쟁력 있는 결합 친화도 점수를 달성하는 동시에 중간 크기의 분자가 다수를 차지하고 약물-유사 특성을 우호적으로 갖춘 분자를 생성한다.
- 모델은 질량 중심 및 등가 디노이징을 통해 SE(3) 불변성을 유지하여 물리적으로 타당한 3D 구조를 가능하게 한다.
- DiffBP는 자동회귀 생성에서 흔히 나타나는 초기 종료 문제를 피하고 약물-유사 범위에 맞춘 더 넓은 분자 크기 분포를 산출한다.
- 교차 정규화 항을 도입하면 분자 타당성과 도킹 성능이 개선된다.
- 기준선과 비교했을 때 DiffBP는 QED, SA, LPSK 점수에서 경쟁력을 보이며 크기 그룹에 따라 다양한 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.