Skip to main content
QUICK REVIEW

[論文レビュー] Accurate RNA 3D structure prediction using a language model-based deep learning approach

Tao Shen, Zhigang Hu|arXiv (Cornell University)|Jul 4, 2022
RNA and protein synthesis mechanisms被引用数 57
ひとこと要約

E2Efold-3Dは、RNAパズルでsub-4 Å RMSDを達成するデノボRNA 3D構造予測のエンドツーエンド深層学習法であり、FARFAR2よりはるかに高速です。

ABSTRACT

Accurate prediction of RNA three-dimensional (3D) structure remains an unsolved challenge. Determining RNA 3D structures is crucial for understanding their functions and informing RNA-targeting drug development and synthetic biology design. The structural flexibility of RNA, which leads to scarcity of experimentally determined data, complicates computational prediction efforts. Here, we present RhoFold+, an RNA language model-based deep learning method that accurately predicts 3D structures of single-chain RNAs from sequences. By integrating an RNA language model pre-trained on ~23.7 million RNA sequences and leveraging techniques to address data scarcity, RhoFold+ offers a fully automated end-to-end pipeline for RNA 3D structure prediction. Retrospective evaluations on RNA-Puzzles and CASP15 natural RNA targets demonstrate RhoFold+'s superiority over existing methods, including human expert groups. Its efficacy and generalizability are further validated through cross-family and cross-type assessments, as well as time-censored benchmarks. Additionally, RhoFold+ predicts RNA secondary structures and inter-helical angles, providing empirically verifiable features that broaden its applicability to RNA structure and function studies.

研究の動機と目的

  • 限られた実験データにもかかわらず、正確なデノボRNA 3D構造予測を動機づける。
  • 直接3D座標を出力するエンドツーエンド微分可能なDLパイプラインを提案する。
  • RNAファウンデーションモデル表現と二次構造情報を活用してデータを拡張する。
  • 自己蒸留とリサイクリングを組み込み、予測精度とデータ効率を向上させる。

提案手法

  • 配列データから原子座標を予測する、完全に微分可能なエンドツーエンドモデルを使用する。
  • 23MのRNA配列で学習したRNAファウンデーションモデルを用いて配列表現を初期化する。
  • ヌクレオチド間相互作用を捉えるため、4層のE2Eformerを通じて特徴を処理する。
  • 構造認識loss制約を伴う最終的な3D RNA座標を生成するために、8層の構造モジュールを使用する。
  • 二次構造情報と自己蒸留でトレーニングを拡張し、有効なデータ量を拡大する。
  • AlphaFold風の反復的改良に類似したリサイクリングを組み込み、予測を精練する。

実験結果

リサーチクエスチョン

  • RQ1完全に微分可能なエンドツーエンドモデルは、シーケンスだけからデノボRNA 3D構造を予測できるか?
  • RQ2RNAファウンデーションモデル表現と二次構造制約を組み合わせると3D予測は改善されるか?
  • RQ3自己蒸留とリサイクリング戦略はRNA 3D構造の予測精度を有意に高めるか?
  • RQ4E2Efold-3DはRNAパズルやRNA複合体において、最新の方法と比べてどのように性能を示すか?

主な発見

MethodRMSD (Å)TM-scorelDDT
FARFAR2-best12.5550.3540.633
FARFAR2-avg17.1650.2490.573
E2Efold-3D3.4860.5180.739
  • 独立した非冗長なテストセット50本のRNAで、E2Efold-3Dは平均RMSD3.486 Å、TM-score 0.518、lDDT 0.739を達成。
  • E2Efold-3Dは平均TM-score0.5175を取得し、FARFAR2-avg0.249およびFARFAR2-best0.294(概算)を上回り、グローバルフォールドマッチの改善を示す。
  • 平均推論時間は構造あたり0.12秒で、FARFAR2は約4,777秒/構造であり、速度の大きな利点を際立たせる。
  • アブレーション研究はRNA-FM埋め込みとリサイクリングの両方がパフォーマンス向上に寄与し、RNA-FMはTM-scoreを高め、リサイクリングはRMSDの精練を支援。
  • モノマーおよびRNA-Ligand複合体を含むRNA-Puzzlesベンチマークで、E2Efold-3DはRMSDとTM-scoreでコミュニティ結果を上回る最良のスコアを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。