Skip to main content
QUICK REVIEW

[论文解读] Accurate RNA 3D structure prediction using a language model-based deep learning approach

Tao Shen, Zhigang Hu|arXiv (Cornell University)|Jul 4, 2022
RNA and protein synthesis mechanisms被引用 57
一句话总结

E2Efold-3D 是一种端到端深度学习方法,用于从头预测 RNA 的 3D 结构,在 RNA 谜题上实现亚 4 Å 的 RMSD,并且比 FARFAR2 快得多。

ABSTRACT

Accurate prediction of RNA three-dimensional (3D) structure remains an unsolved challenge. Determining RNA 3D structures is crucial for understanding their functions and informing RNA-targeting drug development and synthetic biology design. The structural flexibility of RNA, which leads to scarcity of experimentally determined data, complicates computational prediction efforts. Here, we present RhoFold+, an RNA language model-based deep learning method that accurately predicts 3D structures of single-chain RNAs from sequences. By integrating an RNA language model pre-trained on ~23.7 million RNA sequences and leveraging techniques to address data scarcity, RhoFold+ offers a fully automated end-to-end pipeline for RNA 3D structure prediction. Retrospective evaluations on RNA-Puzzles and CASP15 natural RNA targets demonstrate RhoFold+'s superiority over existing methods, including human expert groups. Its efficacy and generalizability are further validated through cross-family and cross-type assessments, as well as time-censored benchmarks. Additionally, RhoFold+ predicts RNA secondary structures and inter-helical angles, providing empirically verifiable features that broaden its applicability to RNA structure and function studies.

研究动机与目标

  • 由于实验数据稀缺,推动准确的从头RNA 3D结构预测。
  • 提出一个端到端可微分的 DL 流程,直接输出 3D 坐标。
  • 利用 RNA 基础模型表示和二级结构信息来增强数据。
  • 结合自蒸馏和循环提升预测精度和数据效率。

提出的方法

  • 使用一个完全可微分的端到端模型,从序列数据预测原子坐标。
  • 使用在 23M RNA 序列上训练的 RNA 基础模型来初始化序列表示。
  • 通过 4 层 E2Eformer 处理特征以捕捉核苷酸相互作用。
  • 使用 8 层结构模块生成最终的 3D RNA 坐标,并以结构感知的损失约束。
  • 通过二级结构信息和自蒸馏来扩充训练数据有效规模。
  • 结合循环以如 AlphaFold 风格的迭代精炼来改进预测。

实验结果

研究问题

  • RQ1仅依靠序列就能让一个完全可微分的端到端模型预测 de novo RNA 3D 结构吗?
  • RQ2将 RNA 基础模型表示与二级结构约束相结合是否能提升 3D 预测?
  • RQ3自蒸馏和循环策略是否能显著提升 RNA 3D 结构的预测准确性?
  • RQ4E2Efold-3D 在 RNA 谜题和 RNA-复合物上的表现如何,与最先进方法相比?

主要发现

MethodRMSD (Å)TM-scorelDDT
FARFAR2-best12.5550.3540.633
FARFAR2-avg17.1650.2490.573
E2Efold-3D3.4860.5180.739
  • 在一个独立的非冗余测试集上,E2Efold-3D 实现平均 RMSD 3.486 Å,TM-score 0.518,lDDT 0.739。
  • E2Efold-3D 获得平均 TM-score 0.5175,优于 FARFAR2-avg (0.249) 和 FARFAR2-best (0.294 约) 的报道对比,表明全局折叠匹配更好。
  • 平均推理时间每个结构 0.12 秒,而 FARFAR2 约 4,777 秒/结构,显示显著的速度优势。
  • 消融研究显示 RNA-FM 嵌入和循环都对性能提升有贡献,RNA-FM 提升 TM-score,循环有助于 RMSD 精炼。
  • 在 RNA-Puzzles 基准测试包括单体和 RNA-配体复合物,E2Efold-3D 在 RMSD 和 TM-score 上取得社区结果中最佳分数。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。