QUICK REVIEW

[論文レビュー] Systematic partitioning of proteins for quantum-chemical fragmentation methods using graph algorithms

Mario Wolter, Moritz von Looz|arXiv (Cornell University)|Oct 6, 2020

Mass Spectrometry Techniques and Applications参考文献 74被引用数 8

ひとこと要約

本稿では、大規模なタンパク質の量子化学的計算における断片化誤差を体系的に最小化するためのグラフベースの分割手法を提案する。タンパク質を重み付きグラフとしてモデル化し、辺は推定された断片化誤差を表す。動的計画法を用いて、最適に近い断片化を探索し、固定サイズの断片化手法と比較して一貫して誤差を低減する。特に最大断片サイズが5〜20アミノ酸の範囲では、タンパク質-リガンド相互作用エネルギーなどの局所的性質において顕著な改善が得られる。

ABSTRACT

Quantum-chemical fragmentation methods offer an efficient approach for the treatment of large proteins, in particular if local target quantities such as protein--ligand interaction energies, enzymatic reaction energies, or spectroscopic properties of embedded chromophores are sought. However, the accuracy that is achievable for such local target quantities intricately depends on how the protein is partitioned into smaller fragments. While the commonly employed na\"ive approach of using fragments with a fixed size is widely used, it can result in large and unpredictable errors when varying the fragment size. Here, we present a systematic partitioning scheme that aims at minimizing the fragmentation error of a local target quantity for a given maximum fragment size. To this end, we construct a weighted graph representation of the protein, in which the amino acids constitute the nodes. These nodes are connected by edges weighted with an estimate for the fragmentation error that is expected when cutting this edge. This allows us to employ graph partitioning algorithms provided by computer science to determine near-optimal partitions of the protein. We apply this scheme to a test set of six proteins representing various prototypical applications of quantum-chemical fragmentation methods using a simplified molecular fractionation with conjugate caps (MFCC) approach with hydrogen caps. We show that our graph-based scheme consistently improves upon the na\"ive approach.

研究の動機と目的

大規模タンパク質の計算において、固定サイズの断片化手法を用いる場合に生じる高くて予測困難な断片化誤差を解消すること。
局所的ターゲット量（例：相互作用エネルギー、分光的性質）の精度を向上させる、体系的で誤差を最小化する分割法を構築すること。
タンパク質構造を、誤差推定値を重みとする辺を持つ重み付きグラフとしてモデル化し、コンピュータサイエンスのグラフ分割アルゴリズムを適用すること。
提案手法が、標準的なナイーブな分割戦略に比べて断片化誤差の低減において優れていることを示すこと。
将来の拡張の基盤を築くこと。具体的には、重複する断片やより複雑な埋め込みスキームへの応用を想定する。

提案手法

各アミノ酸をノードとし、ノード間の辺は2体近似による推定断片化誤差で重みづけられたグラフとしてタンパク質を表現する。
断片化誤差は、関心領域（RoI）内でのクーロンポテンシャルの絶対誤差として定義され、タンパク質-リガンド相互作用エネルギーなどの局所的性質の誤差と相関する。
動的計画法（DP）を用いて、指定された最大断片サイズ制約下で合計断片化誤差を最小化する近似的最適な分割を計算する。
辺の重みはアミノ酸ペアの量子化学的計算により算出されるが、将来的には計算コストを削減するため、幾何的記述子を用いたパrametrizationを提案している。
簡略化のため、水素キャップを用いたMFCCアプローチを採用し、断片-キャップ相互作用を無視している。
6つのテストタンパク質を用いて、グラフベースの分割法と標準的な固定サイズ断片化戦略との比較を実施した。

実験結果

リサーチクエスチョン

RQ1固定サイズの断片化手法と比較して、グラフベースの分割法はタンパク質の量子化学的計算における断片化誤差を体系的に低減できるか？
RQ2最大断片サイズが異なる場合、特に5〜20アミノ酸の範囲で、グラフベース手法の性能はどのように変化するか？
RQ3関心領域（RoI）の位置が、グラフベース手法による誤差低減効果にどの程度影響を与えるか？
RQ42体近似による断片化誤差推定値は、タンパク質-リガンド相互作用エネルギーなどの局所的性質の誤差を信頼性を持って予測できるか？
RQ5量子化学的計算による辺の重み割り当てには計算コストが伴うが、その妥当なトレードオフは何か？また、それらを高速なパラメータ化モデルに置き換えられるか？

主な発見

最大断片サイズが同じ場合、グラフベースの分割法はナイーブな固定サイズ断片化手法に比べ、期待される断片化誤差を一貫して低減する。特に5〜20アミノ酸の範囲で顕著な改善が得られる。
関心領域（RoI）が明確に局所化されたタンパク質（例：結合ポケットを有するタンパク質）では、誤差低減が顕著であり、断片サイズが増加するに従い体系的に収束する。
一方、中心にRoIを有するタンパク質（例：GFP）では、ナイーブ法と比較して、誤差低減がほとんど観察されなかった。
ナイーブ法では断片サイズに応じて誤差に大きな振動が見られたが、グラフベース手法では断片サイズの増加に伴い滑らかで単調に誤差が減少する傾向を示した。
量子化学的計算による辺の重み計算には大きな計算コストが伴うが、将来的には距離とRoIへの近接度を用いたパラメータ化によりコストを削減できると提案している。
現在の実装では非重複断片と水素キャップを仮定しており、今後は重複断片とキャップ、および負の辺の重みを含む拡張を計画している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。