Skip to main content
QUICK REVIEW

[논문 리뷰] EspalomaCharge: Machine learning-enabled ultra-fast partial charge assignment

Yuanqing Wang, Iván Pulido|arXiv (Cornell University)|2023. 02. 14.
Machine Learning in Materials Science참고 문헌 45인용 수 9
한 줄 요약

EspalomaCharge는 혼합 그래프 신경망과 전하 평형화를 사용하여 AM1-BCC ELF10 유사 부분 전하를 예측하며 O(N) 스케일링으로 소분자 및 생체 고분자에 대해 구분 없이 빠른 충전을 가능하게 한다. 참조 정확도와 호환되며 일반 워크플로에 드랍인 대체로 통합된다.

ABSTRACT

Atomic partial charges are crucial parameters in molecular dynamics (MD) simulation, dictating the electrostatic contributions to intermolecular energies, and thereby the potential energy landscape. Traditionally, the assignment of partial charges has relied on surrogates of extit{ab initio} semiempirical quantum chemical methods such as AM1-BCC, and is expensive for large systems or large numbers of molecules. We propose a hybrid physical / graph neural network-based approximation to the widely popular AM1-BCC charge model that is orders of magnitude faster while maintaining accuracy comparable to differences in AM1-BCC implementations. Our hybrid approach couples a graph neural network to a streamlined charge equilibration approach in order to predict molecule-specific atomic electronegativity and hardness parameters, followed by analytical determination of optimal charge-equilibrated parameters that preserves total molecular charge. This hybrid approach scales linearly with the number of atoms, enabling, for the first time, the use of fully consistent charge models for small molecules and biopolymers for the construction of next-generation self-consistent biomolecular force fields. Implemented in the free and open source package exttt{espaloma\_charge}, this approach provides drop-in replacements for both AmberTools exttt{antechamber} and the Open Force Field Toolkit charging workflows, in addition to stand-alone charge generation interfaces. Source code is available at \url{https://github.com/choderalab/espaloma_charge}.

연구 동기 및 목표

  • 빠르고 정확한 부분 전하 할당 방법을 개발하여 구성이 콘포머에 의존하지 않고 대형 생체분자까지 확장 가능하게 한다.
  • 그래프 신경망을 활용하여 원자 수준 전기음향성 및 경도 매개변수를 충전 평형화에 활용할 수 있도록 예측한다.
  • 분자 전체 전하(Q) 제약을 만족하도록 예측된 전하 합이 Q가 되도록Analytical constrained 해를 통해 계산된다.
  • 기존 분자역학 워크플로우(AmberTools, Open Force Field Toolkit)와의 쉬운 통합을 제공한다.
  • 메서드가 QM 기반 접근법의 비용에 비해 훨씬 낮은 비용으로 AM1-BCC ELF10 품질의 전하를 달성함을 보여준다.

제안 방법

  • Espaloma 프레임워크를 사용하여 원자 환경의 연속 임베딩을 생성하는 그래프 신경망을 구성한다.
  • 각 원자에 대해 GNN 임베딩에서 unconstrained electronegativity e_i 및 hardness s_i를 예측한다.
  • 합계 제약 sum_i q_i = Q(전체 분자 전하)를 만족하도록 ∑_i (e_i q_i + 0.5 s_i q_i^2)의 합을 최소화하여 q_i를 해석적으로 해 구한다.
  • 제곱 손실을 사용하여 AM1-BCC ELF10 전하를 재현하기 위해 확장된 SPICE 데이터셋으로 학습한다.
  • O(N) 실행 시간 복잡도와 대규모 분자 세트를 배치 처리하는 능력을 입증한다.
  • OpenFF Toolkit 및 Amber 워크플로우와의 통합을 위한 Python API 및 CLI를 제공한다.
Figure 1: Schematic overview of EspalomaCharge: a hybrid physical / GNN model for fast charge assignment. First, the graph node representation $h$ assigned by a GNN is used to compute unconstrained electronegativity $e_{i}$ and hardness $s_{i}$ to each atom. Second, the charge potential energy is mi
Figure 1: Schematic overview of EspalomaCharge: a hybrid physical / GNN model for fast charge assignment. First, the graph node representation $h$ assigned by a GNN is used to compute unconstrained electronegativity $e_{i}$ and hardness $s_{i}$ to each atom. Second, the charge potential energy is mi

실험 결과

연구 질문

  • RQ1다양한 화학 공간에서 ML 대리모가 AM1-BCC ELF10 전하를 얼마나 정확하게 재현할 수 있는가?
  • RQ2큰 시스템에서 EspalomaCharge의 계산복잡도와 속도는 대형 시스템에 대해 AmberTools 및 OpenEye와 비교하여 어떤가?
  • RQ3EspalomaCharge가 학습 분포 밖의 생체분자 및 약물 유사 화합물에 일반화되는가?
  • RQ4EspalomaCharge가 기존 MM/MD 워크플로우 내에서 드랍인 방식으로 전하를 제공할 수 있는가?

주요 결과

  • EspalomaCharge는 AM1-BCC ELF10 전하를 AM1-BCC 구현 간 차이에 해당하는 RMSE와 비슷하게 재현한다(종종 AmberTools와 OpenEye의 차이와 비슷한 수준).
  • SPICE 테스트 세트에서 RMSE ≈ 0.0435이고 벽시계 시간은 EspalomaCharge가 약 93.10 s인 반면, 더 빠른 베이스라인은 OpenEye 및 AmberTools가 다양한 맥락에서 더 높은 시간을 보였다.
  • 다양한 데이터 세트(FDA 승인, ZINC250K, FreeSolv, PDB eXpo)에서 EspalomaCharge는 0.0110–0.0266 범위의 RMSE 값을 달성하여 화학 공간 전반에 걸친 견고한 정확성을 보인다.
  • EspalomaCharge는 원자 수에 대해 선형 시간(O(N))으로 동작하며 QM 기반 충전 방법보다 수의 양자적으로 빠르며, 생체고분자(수백 잔기)도 초 단위로 매개변수화 가능.
  • 단일 충전 계산에서 많은 분자를 배치 처리하면 CPU/GPU에서 상당한 속도 이점을 얻고, 실용적 라이브러리 크기에 대해 사실상 거의 상수 시간에 근접한다.
  • EspalomaCharge 전하를 사용한 수화 자유에너지 계산은 RMSE 및 R^2 측면에서 실험 데이터와 비교한 AmberTools 및 OpenEye 구현과 통계적으로 차이가 없다.
Figure 2: EspalomaCharge shows smaller average charge RMSE than AmberTools on well-represented regions of chemical space. SPICE dataset test set performance stratified by total charge ( left panel ) and molecule size ( right panel ). To better illustrate the effects of limited training data on strat
Figure 2: EspalomaCharge shows smaller average charge RMSE than AmberTools on well-represented regions of chemical space. SPICE dataset test set performance stratified by total charge ( left panel ) and molecule size ( right panel ). To better illustrate the effects of limited training data on strat

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.