Skip to main content
QUICK REVIEW

[논문 리뷰] Systematic partitioning of proteins for quantum-chemical fragmentation methods using graph algorithms

Mario Wolter, Moritz von Looz|arXiv (Cornell University)|2020. 10. 06.
Mass Spectrometry Techniques and Applications참고 문헌 74인용 수 8
한 줄 요약

이 논문은 대규모 단백질의 양자화학적 계산에서 분할 오차를 체계적으로 최소화하기 위해 그래프 기반 분할 방법을 제안한다. 단백질을 간선이 추정된 분할 오차를 나타내는 가중치가 부여된 그래프로 모델링함으로써, 동적 프로그래밍을 사용해 근사 최적의 분할을 찾는다. 고정 크기의 분할 방법에 비해 오차를 일관되게 감소시키며, 특히 최대 분할 크기가 5~20개 아미노산일 때 단백질-리간드 상호작용 에너지와 같은 국소적 성질에서 뛰어난 성능을 보인다.

ABSTRACT

Quantum-chemical fragmentation methods offer an efficient approach for the treatment of large proteins, in particular if local target quantities such as protein--ligand interaction energies, enzymatic reaction energies, or spectroscopic properties of embedded chromophores are sought. However, the accuracy that is achievable for such local target quantities intricately depends on how the protein is partitioned into smaller fragments. While the commonly employed na\"ive approach of using fragments with a fixed size is widely used, it can result in large and unpredictable errors when varying the fragment size. Here, we present a systematic partitioning scheme that aims at minimizing the fragmentation error of a local target quantity for a given maximum fragment size. To this end, we construct a weighted graph representation of the protein, in which the amino acids constitute the nodes. These nodes are connected by edges weighted with an estimate for the fragmentation error that is expected when cutting this edge. This allows us to employ graph partitioning algorithms provided by computer science to determine near-optimal partitions of the protein. We apply this scheme to a test set of six proteins representing various prototypical applications of quantum-chemical fragmentation methods using a simplified molecular fractionation with conjugate caps (MFCC) approach with hydrogen caps. We show that our graph-based scheme consistently improves upon the na\"ive approach.

연구 동기 및 목표

  • 큰 단백질에 대해 고정 크기의 분할을 사용할 때 발생하는 높고 예측 불가능한 분할 오차를 해결하기 위해.
  • 단백질-리간드 상호작용 에너지 또는 스펙트로스코픽 성질과 같은 국소적 목표량의 정확도를 향상시키기 위한 체계적이고 오차 최소화 분할 기법을 개발하기 위해.
  • 단백질 구조를 오차 추정 값이 부여된 가중치 그래프로 모델링하여 컴퓨터 과학의 그래프 분할 알고리즘을 적용하기 위해.
  • 제안된 방법이 표준 난이도 높은 분할 전략에 비해 분할 오차 감소 측면에서 뛰어나다는 것을 입증하기 위해.
  • 향후 겹치는 분할과 더 복잡한 임베딩 기법으로의 확장을 위한 기반을 마련하기 위해.

제안 방법

  • 각 아미노산을 노드로, 노드 간 간선은 이원자 근사에서 유도된 추정 분할 오차로 가중치가 부여된 그래프로 단백질을 표현한다.
  • 분할 오차는 관심 영역(RoI) 내에서 쿨롱 포텐셜의 절대 편차로 정의되며, 단백질-리간드 상호작용 에너지와 같은 국소적 성질의 오차와 상관관계가 있다.
  • 최대 분할 크기 제약 조건 하에 총 분할 오차를 최소화하는 근사 최적의 분할을 계산하기 위해 동적 프로그래밍(DP) 알고리즘을 사용한다.
  • 간선 가중치는 아미노산 쌍에 대한 양자화학 계산을 통해 계산되며, 향후 계산 비용을 줄이기 위해 기하학적 기술자로의 파arametrization을 제안한다.
  • 간단한 MFCC 방법을 사용하여 테스트를 수행하며, 단순화를 위해 분할 끝단 상호작용은 무시한다.
  • 여섯 종류의 테스트 단백질에 대해 그래프 기반 분할 전략과 표준 고정 크기 분할 전략을 비교 적용한다.

실험 결과

연구 질문

  • RQ1고정 크기 분할 전략에 비해 그래프 기반 분할 접근법이 단백질의 양자화학적 계산에서 분할 오차를 체계적으로 감소시킬 수 있는가?
  • RQ2특히 5~20개 아미노산 범위에서 최대 분할 크기가 변화할 때 그래프 기반 방법의 성능은 어떻게 변하는가?
  • RQ3관심 영역(RoI)의 위치가 그래프 기반 방법이 달성하는 오차 감소에 얼마나 영향을 미치는가?
  • RQ4이원자 근사를 통해 추정한 분할 오차가 단백질-리간드 상호작용 에너지와 같은 국소적 성질의 오차를 신뢰성 있게 예측할 수 있는가?
  • RQ5양자화학 계산을 통해 간선 가중치를 할당하는 데서 발생하는 계산적 트레이드오프는 무엇이며, 이를 더 빠른 파arametrized 모델로 대체할 수 있는가?

주요 결과

  • 같은 최대 분할 크기 조건 하에 그래프 기반 분할 방법은 난이도 높은 고정 크기 분할 전략에 비해 분할 오차를 일관되게 감소시킨다. 특히 5~20개 아미노산 범위에서 두드러진 성능을 보인다.
  • 결합 풀과 같은 잘 국소화된 관심 영역(RoI)을 가진 단백질의 경우 오차 감소가 뚜렷했으며, 분할 크기가 증가함에 따라 체계적인 수렴을 보였다.
  • 반면에 중앙에 RoI가 있는 단백질(예: GFP)의 경우, 난이도 높은 방법에 비해 개선 효과가 없거나 최소한이었다.
  • 난이도 높은 방법은 분할 크기 변화에 따라 오차가 크게 진동하는 반면, 그래프 기반 방법은 분할 크기가 증가함에 따라 부드럽고 단조롭게 오차가 감소하는 경향을 보였다.
  • 양자화학 계산을 통해 간선 가중치를 계산하는 데에는 상당한 계산 오버헤드가 있지만, 향후 거리와 RoI 접근성 등을 활용한 파arametrization을 통해 이를 줄일 수 있다고 제안한다.
  • 현재 구현은 서로 겹치지 않는 분할과 수소 캡을 가정하고 있으며, 향후 작업으로는 캡이 있는 겹치는 분할과 음수 간선 가중치를 포함한 확장 계획이 수립되어 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.