Skip to main content
QUICK REVIEW

[论文解读] RNA Secondary Structure Prediction By Learning Unrolled Algorithms

Xinshi Chen, Yu Li|arXiv (Cornell University)|Feb 13, 2020
RNA and protein synthesis mechanisms参考文献 31被引用 37
一句话总结

E2Efold 通过在一个未展开的约束优化后处理网络中嵌入硬性结构约束,端到端地学习预测 RNA 碱基对矩阵,取得更高的准确性(尤其是在伪结处)并具备有竞争力的推理速度。

ABSTRACT

In this paper, we propose an end-to-end deep learning model, called E2Efold, for RNA secondary structure prediction which can effectively take into account the inherent constraints in the problem. The key idea of E2Efold is to directly predict the RNA base-pairing matrix, and use an unrolled algorithm for constrained programming as the template for deep architectures to enforce constraints. With comprehensive experiments on benchmark datasets, we demonstrate the superior performance of E2Efold: it predicts significantly better structures compared to previous SOTA (especially for pseudoknotted structures), while being as efficient as the fastest algorithms in terms of inference time.

研究动机与目标

  • 在尊重硬性结构约束的同时,激励端到端学习用于RNA二级结构预测。
  • 通过直接预测碱基对矩阵并通过一个未展开的后处理算法来强制约束,从而避免套嵌结构的限制。
  • 将基于 transformer 的 Deep Score Network 与可微分的 Post-Processing Network 联合训练。
  • 在基准数据集上展示优越的性能,包括含伪结结构的情况,并与最先进的方法进行比较。

提出的方法

  • 使用输出 LxL 对称分数矩阵 U_theta(x) 的 Deep Score Network 来预测碱基对分数。
  • 在后处理阶段通过源自未展开的约束优化算法的 Post-Processing Network 来强制 RNA 结构约束。
  • 将后处理表述为对 A 在 [0,1] 内的对称性和硬约束的凸松弛优化,使用 A = T(hatA) 变换来编码可行性。
  • 将优化过程展开为带有可学习超参数的 PP_phi,使其能够与 U_theta 一起进行端到端训练。
  • 直接优化 F1 的可微替代目标(精确度/召回率)以提升碱基对预测质量。
  • 先以逻辑回归损失进行预训练,然后联合训练 U_theta 和 PP_phi 以最大化基于轨迹的 -F1 损失。

实验结果

研究问题

  • RQ1端到端模型是否能够在本身满足包括伪结在内的硬性结构约束的同时预测RNA二级结构?
  • RQ2在训练阶段整合未展开的约束优化后处理步骤,是否比分离式设置在准确性和效率上有所提升?
  • RQ3相对于最先进方法,E2Efold 在基准数据集上的表现如何,特别是在包含伪结结构的情况下?

主要发现

方法精确度召回率F1精确度(S)召回率(S)F1(S)
E2Efold0.6860.660.6860.7040.660.704
CDPfold0.5450.5350.5450.5970.5850.597
LinearFold0.6210.6170.6210.6470.6440.647
Mfold0.4010.3830.4010.4210.4030.421
RNAstructure0.5850.6150.5850.6130.6450.613
RNAfold0.5920.6270.5920.6150.6520.615
CONTRAfold0.6380.6790.6380.6620.7050.662
  • E2Efold 在基准数据集上取得优于 SOTA 的 F1 分数,包括对伪结处理的强健性。
  • 在 RNAstralign 上,E2Efold 提供更高的准确性,推理时间与 LinearFold 相比仍然快速。
  • 在各基准上,E2Efold 提升了精确度和召回率,F1 分数有显著提升。
  • 将可微分的未展开后处理步骤整合进端到端训练,性能优于仅使用后处理的变体。
  • 包含伪结的预测得到改进,E2Efold 的表现与明确处理伪结的基线相匹配或优于之。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。