QUICK REVIEW

[论文解读] A Graph Neural Network Approach to Automated Model Building in Cryo-EM Maps

Kiarash Jamali, Dari Kimanius|arXiv (Cornell University)|Sep 30, 2022

Advanced Electron Microscopy Techniques and Applications被引用 26

一句话总结

论文提出 ModelAngelo，这是一个将 cryo-EM 体素数据、蛋白质序列与几何先验整合在一起的图神经网络，能够在 cryo-EM 密度图中自动构建原子模型，对于分辨率优于 3.5 Å 的密度图，达到接近手工的准确性。

ABSTRACT

Electron cryo-microscopy (cryo-EM) produces three-dimensional (3D) maps of the electrostatic potential of biological macromolecules, including proteins. Along with knowledge about the imaged molecules, cryo-EM maps allow de novo atomic modelling, which is typically done through a laborious manual process. Taking inspiration from recent advances in machine learning applications to protein structure prediction, we propose a graph neural network (GNN) approach for automated model building of proteins in cryo-EM maps. The GNN acts on a graph with nodes assigned to individual amino acids and edges representing the protein chain. Combining information from the voxel-based cryo-EM data, the amino acid sequence data and prior knowledge about protein geometries, the GNN refines the geometry of the protein chain and classifies the amino acids for each of its nodes. Application to 28 test cases shows that our approach outperforms the state-of-the-art and approximates manual building for cryo-EM maps with resolutions better than 3.5 Å.

研究动机与目标

使用一个统一的神经框架，在 cryo-EM 密度图中自动完成从头原子模型构建。
将基于体素的 cryo-EM 密度与蛋白质序列信息及几何先验整合。
在约3 Å分辨率的密度图上改进当前最先进的自动模型构建方法。

提出的方法

构建一个图，其中节点为 Cα 原子，边按蛋白链连接；训练一个图神经网络以细化主链位置并分配残基。
使用一个三模块、八层的 SE(3) 等变图神经网络，具备 Cryo-EM Attention、Sequence Attention 和 Spatial Invariant Point Attention (IPA)，将密度图数据、序列嵌入和几何信息融合。
结合主链帧更新和基于 Gram-Schmidt 的对齐，以维持真实的键长与角度几何。
利用多任务损失函数，其中包括 Cα RMSD、主链 RMSD、氨基酸分类、扭转角和每残基置信度，以端到端方式进行训练。
通过肽键启发式将残基连接成链的后处理步骤，进行基于 HMM 的序列比对以对齐提供的序列，并循环利用预测以细化模型。
通过循环回收训练并对初始 Cα 位置去噪；通过加入噪声、锐化/减弱和随机旋转来增强数据。

实验结果

研究问题

RQ1是否可以用单一的 GNN 架构同时利用 cryo-EM 体素数据、序列信息和拓扑结构，在 cryo-EM 密度图中自动构建蛋白质模型？
RQ2将序列嵌入和基于 IPA 的几何信息纳入，与仅使用密度图的方法相比，对残基识别和主链细化有何影响？
RQ3在分辨率优于 3.5 Å 的 cryo-EM 密度图上，该方法在序列回忆率和氨基酸准确性方面的表现如何？
RQ4该模型能否生成包含侧链的完整原子模型，并通过回收和去噪等训练策略处理不确定或缺失的残基？
RQ5在多个测试案例中，该方法与当前最先进的自动模型构建工具（如 DeepTracer）相比如何？

主要发现

该方法在分辨率优于 3.5 Å 的密度图上接近手工模型构建的准确性。
实际改进来自将 cryo-EM 数据、序列嵌入和图拓扑结合起来，而非仅依赖密度图。
消融研究显示去除序列或 IPA 模块会降低结果；仅依赖密度图的性能比 DeepTracer 差。
后处理后的裁剪通常不会降低序列回忆率，表明可以移除错误区域。
ModelAngelo（ModelAngelo）比 DeepTracer 慢，但在测试案例中与已提交模型的对齐更接近。
在 28 个测试密度图中，该方法在整合多模态信息和回收式细化方面产生更高质量的模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。