[논문 리뷰] Direct Molecular Conformation Generation
논문은 Direct Molecular Conformation Generation (DMCG)을 제안하는데, 이는 회전-이동 및 원자 대칭에 불변인 직접 좌표 생성 모델이며 GEOM-QM9 및 GEOM-Drugs에서 소규모와 대규모 모두에서 최첨단 결과를 시연한다.
Molecular conformation generation aims to generate three-dimensional coordinates of all the atoms in a molecule and is an important task in bioinformatics and pharmacology. Previous methods usually first predict the interatomic distances, the gradients of interatomic distances or the local structures (e.g., torsion angles) of a molecule, and then reconstruct its 3D conformation. How to directly generate the conformation without the above intermediate values is not fully explored. In this work, we propose a method that directly predicts the coordinates of atoms: (1) the loss function is invariant to roto-translation of coordinates and permutation of symmetric atoms; (2) the newly proposed model adaptively aggregates the bond and atom information and iteratively refines the coordinates of the generated conformation. Our method achieves the best results on GEOM-QM9 and GEOM-Drugs datasets. Further analysis shows that our generated conformations have closer properties (e.g., HOMO-LUMO gap) with the groundtruth conformations. In addition, our method improves molecular docking by providing better initial conformations. All the results demonstrate the effectiveness of our method and the great potential of the direct approach. The code is released at https://github.com/DirectMolecularConfGen/DMCG
연구 동기 및 목표
- 중간 거리나 토션 각도에 의존하지 않고 분자 3D 좌표를 직접 생성하는 방법을 제시하고 개발한다.
- 회전-이동 및 대칭 원자 배열 순서에 불변인 손실을 설계한다.
- 좌표를 반복적으로 정제하는 블록 기반의 모델을 제시하고, 결합, 원자 및 분자 전체 정보를 통합하여 좌표를 개선한다.
- 다양한 구성을 가능하게 하는 변분적 요소를 도입하고 도킹과 같은 다운스트림 작업의 유용성을 평가한다.
제안 방법
- ground truth와 생성 좌표 간의 거리를 어떤 회전, 이동, 대칭 원자 치환 하에서도 최소화하는 회전-병진 불변 및 치환 불변 손실을 정의한다.
- 각 블록 끝에 중심 정규화를 적용하여 좌표의 안정성을 유지하며 L 블록에 걸쳐 좌표를 반복적으로 정제하는 모델을 개발한다.
- 2D 분자 그래프 및 초기 구성을 인코딩하여 3D 디코더가 사용하는 표현을 생성하고, 다양한 구성을 위해 잠재 변수 z를 주입한다.
- 다양한 구성을 유도하기 위해 KL 정규화가 포함된 VAE 유사 목표를 사용하고 엔드-투-엔드로 학습한다.
- RTP 손실과 KL 발산을 결합한 목표로 학습하여 추론 시 z를 사전분포에서 샘플링할 수 있게 한다.
- 대칭성은 분자 그래프의 그래프 동형성을 이용해 치환 집합 S를 구성함으로써 손실이 대칭 원자 매핑에 대해 불변하도록 처리한다.
실험 결과
연구 질문
- RQ1회전-이동 및 치환 불변을 준수하면서 분자 좌표를 직접 생성할 수 있는가?
- RQ2직접 좌표를 반복적이고 블록 단위의 아키텍처로 예측하는 것이 거리 기반이나 확산 기반 접근법보다 구성을 더 잘 평가하게 하는가?
- RQ3잠재 변수를 도입하면 다양하고도 정확한 구성을 가능하게 하며, 이것이 도킹과 같은 다운스트림 작업에 도움이 되는가?
주요 결과
| 방법 | QM9_COV_평균 | QM9_COV_중간값 | QM9_MAT_평균 | QM9_MAT_중간값 | Drugs_COV_평균 | Drugs_COV_중간값 | Drugs_MAT_평균 | Drugs_MAT_중간값 |
|---|---|---|---|---|---|---|---|---|
| RDKit | 83.26 | 90.78 | 0.3447 | 0.2935 | 60.91 | 65.70 | 1.2026 | 1.1252 |
| CVGAE | 0.09 | 0.00 | 1.6713 | 1.6088 | 0.00 | 0.00 | 3.0702 | 2.9937 |
| GraphDG | 73.33 | 84.21 | 0.4245 | 0.3973 | 8.27 | 0.00 | 1.9722 | 1.9845 |
| CGCF | 78.05 | 82.48 | 0.4219 | 0.3900 | 53.96 | 57.06 | 1.2487 | 1.2247 |
| ConfVAE | 80.42 | 85.31 | 0.4066 | 0.3891 | 53.14 | 53.98 | 1.2392 | 1.2447 |
| GeoMol | 71.26 | 72.00 | 0.3731 | 0.3731 | 67.16 | 71.71 | 1.0875 | 1.0586 |
| ConfGF | 88.49 | 94.13 | 0.2673 | 0.2685 | 62.15 | 70.93 | 1.1629 | 1.1596 |
| DGSM | 91.49 | 95.92 | 0.2139 | 0.2137 | 78.73 | 94.39 | 1.0154 | 0.9980 |
| GeoDiff | 90.54 | 94.61 | 0.2090 | 0.1988 | 89.13 | 97.88 | 0.8629 | 0.8529 |
| DMCG | 96.23 | 99.26 | 0.2083 | 0.2014 | 96.52 | 100.00 | 0.7220 | 0.7161 |
- DMCG는 모든 테스트 설정에서 최첨단 리콜 기반 커버리지(COV) 및 매칭(MAT) 점수를 달성한다.
- 소규모 QM9에서 DMCG는 COV 평균 96.23% 및 MAT 평균 0.2083 Å를 달성하고, 중앙값은 각각 99.26% 및 0.2014 Å이다.
- 소규모 Drugs에서 DMCG는 COV 평균 96.52% 및 MAT 평균 0.7220 Å를 달성하고, 중앙값은 각각 100.00% 및 0.7161 Å이다.
- 대규모 QM9에서 DMCG는 COV 평균 98.34% 및 MAT 평균 0.1486 Å를 달성하고, 중앙값은 각각 100.00% 및 0.1340 Å이다.
- 대규모 Drugs에서 DMCG는 COV 평균 96.22% 및 MAT 평균 0.6967 Å를 달성하고, 중앙값은 각각 100.00% 및 0.6552 Å이다.
- DMCG는 지상실제값 groundtruth에 더 가까운 성질의 구성을 제공하고(HOMO-LUMO 간격 등) 도킹을 개선하여 더 나은 초기 구성을 제공한다.
- DMCG는 디코딩에 대해 계산적으로 효율적이며 대규모 데이터셋으로 확장되며, 여러 베이스라인 대비 상당한 속도 이점을 제공한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.