Skip to main content
QUICK REVIEW

[论文解读] BPPart and BPMax: RNA-RNA Interaction Partition Function and Structure Prediction for the Base Pair Counting Model

Ali Ebrahimpour-Boroojeny, Sanjay Rajopadhye|arXiv (Cornell University)|Apr 2, 2019
RNA and protein synthesis mechanisms参考文献 53被引用 2
一句话总结

本文提出了 BPPart 和 BPMax 两种轻量级的 RNA-RNA 相互作用预测工具,采用加权碱基配对计数而非复杂的热力学建模。与全面的 piRNA 算法相比,它们分别实现了 225× 和 1350× 的加速,同时在 50,500 个实验验证的 RRIs 上与 piRNA 保持了高度相关性(0.855–0.920),从而实现了对帕金森病和 CADASIL 中与疾病相关的 RNA 相互作用(如 SNORD3D 和 TRAF3)的高效筛选。

ABSTRACT

A few classes of RNA-RNA interaction (RRI) with complex roles in cellular functions, such as miRNA-target and lncRNAs, have already been studied. Accordingly, RRI bioinformatics tools proposed in the last decade are tailored for those specific classes. Interestingly, there are somewhat unnoticed mRNA-mRNA interactions in the literature with potentially drastic biological roles. Hence, there is a need for high-throughput generic RRI bioinformatics tools that can be used in more comprehensive settings. In this work, we revisit two of the RRI partition function algorithms, piRNA and rip. These are equivalent methods that implement the most comprehensive and computationally intensive thermodynamic model for RRI. We propose simpler models that are shown to retain the vast majority of the thermodynamic information that the more complex models capture. Specifically, we simplify the energy model by ignoring the system’s entropy and show its equivalency to a base-pair counting model. We allow different weights for base-pairs to maximize the correlations with the full thermodynamic model. Our newly developed algorithm, BPPart, is 225× faster than piRNA and is more expressive and easier to analyze due to its simplicity and order of magnitude reduction in the number of dynamic programming tables. Still, based on our analysis of both the real and randomly generated data, its scores achieve a correlation of 0.855 with piRNA at 37^{∘}C. Finally, we illustrate one use-case of such simpler models to generate hypotheses about the roles of specific RNAs in various diseases. We have made our tool publicly available and believe that this faster and more expressive model will make the incorporation of physics-guided information in complex RRI analysis and prediction models more accessible.

研究动机与目标

  • 开发更快速、可扩展的 RNA-RNA 相互作用(RRI)预测工具,以支持对各类 RNA(包括研究不足的 mRNA-mRNA 相互作用)的高通量分析。
  • 通过仅关注加权碱基配对计数,简化 piRNA 算法中的复杂 Turner 能量模型,降低计算和内存开销。
  • 评估这种简化是否足以保留足够的热力学信息,以实现生物上相关的预测。
  • 利用新工具识别新型与疾病相关的 RNA 相互作用,特别是在神经退行性疾病中。
  • 为未来在 RRI 预测流程中集成机器学习,提供一个可扩展、模块化的框架。

提出的方法

  • 提出 BPPart,一种基于九个四维动态规划表的碱基配对分区函数算法,用于计算碱基配对概率。
  • 开发 BPMax,一种基于单个四维 DP 表的碱基配对最大化算法,用于预测最稳定的 RRI 结构。
  • 用简化的加权碱基配对计数方案替代完整的 Turner 能量模型,为 CG(3)、AU(1)和 GU(2)配对分配固定能量值。
  • 在不同温度下(如 −180°C 和 37°C)优化碱基配对权重,以最大化与 piRNA 结果的相关性。
  • 通过减少表的数量和查找次数来实现两个算法的优化,与 piRNA 的 96 张表相比,显著降低了时间和内存复杂度。
  • 将 BPPart 应用于检测与疾病相关突变相关的异常相互作用评分,识别出 TRAF3 和 SNORD3D 中潜在的功能影响。

实验结果

研究问题

  • RQ1与全面的 Turner 模型相比,简化的碱基配对计数模型是否能保留足够的热力学信息以实现准确的 RNA-RNA 相互作用预测?
  • RQ2BPPart 和 BPMax 在不同 RNA 类型和温度下的计算性能与准确性,与最先进的 piRNA 算法相比如何?
  • RQ3即使在潜在机制尚未完全阐明的情况下,BPPart 是否能检测到与疾病相关突变相关的生物显著 RNA 相互作用?
  • RQ4温度在多大程度上影响简化模型与完整热力学模型之间的相关性?这一影响如何指导模型校准?
  • RQ5BPPart 是否可作为多阶段 RRI 预测流程中的快速、准确的筛选步骤,特别是在与机器学习结合时?

主要发现

  • 在 37°C 下,BPPart 在 50,500 个实验表征的 RRIs 上与 piRNA 的皮尔逊相关系数为 0.855,斯皮尔曼等级相关系数为 0.836。
  • 在 −180°C 时,BPPart 与 piRNA 的相关性提升至 0.920(皮尔逊)和 0.904(斯皮尔曼),表明热力学排序得到良好保留。
  • BPMax 比 piRNA 快 1350×,在 37°C 下与 piRNA 的皮尔逊相关系数为 0.836,斯皮尔曼相关系数为 0.808。
  • BPPart 识别出 TRAF3 和 SNORD3D 为潜在的致病相关 RNA,其相互作用区域的致病性突变导致显著的评分异常。
  • 简化模型降低了内存使用量,为未来在 GPU 等硬件加速器上的优化提供了可能。
  • 本研究证明,碱基配对计数能够捕捉到相当一部分热力学信息,使其适用于可扩展的、基于物理规律的 RRI 预测流程。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。