[论文解读] Accurate RNA 3D structure prediction using a language model-based deep learning approach
E2Efold-3D 是一种端到端深度学习方法,用于从头预测 RNA 的 3D 结构,在 RNA 谜题上实现亚 4 Å 的 RMSD,并且比 FARFAR2 快得多。
Accurate prediction of RNA three-dimensional (3D) structure remains an unsolved challenge. Determining RNA 3D structures is crucial for understanding their functions and informing RNA-targeting drug development and synthetic biology design. The structural flexibility of RNA, which leads to scarcity of experimentally determined data, complicates computational prediction efforts. Here, we present RhoFold+, an RNA language model-based deep learning method that accurately predicts 3D structures of single-chain RNAs from sequences. By integrating an RNA language model pre-trained on ~23.7 million RNA sequences and leveraging techniques to address data scarcity, RhoFold+ offers a fully automated end-to-end pipeline for RNA 3D structure prediction. Retrospective evaluations on RNA-Puzzles and CASP15 natural RNA targets demonstrate RhoFold+'s superiority over existing methods, including human expert groups. Its efficacy and generalizability are further validated through cross-family and cross-type assessments, as well as time-censored benchmarks. Additionally, RhoFold+ predicts RNA secondary structures and inter-helical angles, providing empirically verifiable features that broaden its applicability to RNA structure and function studies.
研究动机与目标
- 由于实验数据稀缺,推动准确的从头RNA 3D结构预测。
- 提出一个端到端可微分的 DL 流程,直接输出 3D 坐标。
- 利用 RNA 基础模型表示和二级结构信息来增强数据。
- 结合自蒸馏和循环提升预测精度和数据效率。
提出的方法
- 使用一个完全可微分的端到端模型,从序列数据预测原子坐标。
- 使用在 23M RNA 序列上训练的 RNA 基础模型来初始化序列表示。
- 通过 4 层 E2Eformer 处理特征以捕捉核苷酸相互作用。
- 使用 8 层结构模块生成最终的 3D RNA 坐标,并以结构感知的损失约束。
- 通过二级结构信息和自蒸馏来扩充训练数据有效规模。
- 结合循环以如 AlphaFold 风格的迭代精炼来改进预测。
实验结果
研究问题
- RQ1仅依靠序列就能让一个完全可微分的端到端模型预测 de novo RNA 3D 结构吗?
- RQ2将 RNA 基础模型表示与二级结构约束相结合是否能提升 3D 预测?
- RQ3自蒸馏和循环策略是否能显著提升 RNA 3D 结构的预测准确性?
- RQ4E2Efold-3D 在 RNA 谜题和 RNA-复合物上的表现如何,与最先进方法相比?
主要发现
| Method | RMSD (Å) | TM-score | lDDT |
|---|---|---|---|
| FARFAR2-best | 12.555 | 0.354 | 0.633 |
| FARFAR2-avg | 17.165 | 0.249 | 0.573 |
| E2Efold-3D | 3.486 | 0.518 | 0.739 |
- 在一个独立的非冗余测试集上,E2Efold-3D 实现平均 RMSD 3.486 Å,TM-score 0.518,lDDT 0.739。
- E2Efold-3D 获得平均 TM-score 0.5175,优于 FARFAR2-avg (0.249) 和 FARFAR2-best (0.294 约) 的报道对比,表明全局折叠匹配更好。
- 平均推理时间每个结构 0.12 秒,而 FARFAR2 约 4,777 秒/结构,显示显著的速度优势。
- 消融研究显示 RNA-FM 嵌入和循环都对性能提升有贡献,RNA-FM 提升 TM-score,循环有助于 RMSD 精炼。
- 在 RNA-Puzzles 基准测试包括单体和 RNA-配体复合物,E2Efold-3D 在 RMSD 和 TM-score 上取得社区结果中最佳分数。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。