[論文レビュー] Accurate RNA 3D structure prediction using a language model-based deep learning approach
E2Efold-3Dは、RNAパズルでsub-4 Å RMSDを達成するデノボRNA 3D構造予測のエンドツーエンド深層学習法であり、FARFAR2よりはるかに高速です。
Accurate prediction of RNA three-dimensional (3D) structure remains an unsolved challenge. Determining RNA 3D structures is crucial for understanding their functions and informing RNA-targeting drug development and synthetic biology design. The structural flexibility of RNA, which leads to scarcity of experimentally determined data, complicates computational prediction efforts. Here, we present RhoFold+, an RNA language model-based deep learning method that accurately predicts 3D structures of single-chain RNAs from sequences. By integrating an RNA language model pre-trained on ~23.7 million RNA sequences and leveraging techniques to address data scarcity, RhoFold+ offers a fully automated end-to-end pipeline for RNA 3D structure prediction. Retrospective evaluations on RNA-Puzzles and CASP15 natural RNA targets demonstrate RhoFold+'s superiority over existing methods, including human expert groups. Its efficacy and generalizability are further validated through cross-family and cross-type assessments, as well as time-censored benchmarks. Additionally, RhoFold+ predicts RNA secondary structures and inter-helical angles, providing empirically verifiable features that broaden its applicability to RNA structure and function studies.
研究の動機と目的
- 限られた実験データにもかかわらず、正確なデノボRNA 3D構造予測を動機づける。
- 直接3D座標を出力するエンドツーエンド微分可能なDLパイプラインを提案する。
- RNAファウンデーションモデル表現と二次構造情報を活用してデータを拡張する。
- 自己蒸留とリサイクリングを組み込み、予測精度とデータ効率を向上させる。
提案手法
- 配列データから原子座標を予測する、完全に微分可能なエンドツーエンドモデルを使用する。
- 23MのRNA配列で学習したRNAファウンデーションモデルを用いて配列表現を初期化する。
- ヌクレオチド間相互作用を捉えるため、4層のE2Eformerを通じて特徴を処理する。
- 構造認識loss制約を伴う最終的な3D RNA座標を生成するために、8層の構造モジュールを使用する。
- 二次構造情報と自己蒸留でトレーニングを拡張し、有効なデータ量を拡大する。
- AlphaFold風の反復的改良に類似したリサイクリングを組み込み、予測を精練する。
実験結果
リサーチクエスチョン
- RQ1完全に微分可能なエンドツーエンドモデルは、シーケンスだけからデノボRNA 3D構造を予測できるか?
- RQ2RNAファウンデーションモデル表現と二次構造制約を組み合わせると3D予測は改善されるか?
- RQ3自己蒸留とリサイクリング戦略はRNA 3D構造の予測精度を有意に高めるか?
- RQ4E2Efold-3DはRNAパズルやRNA複合体において、最新の方法と比べてどのように性能を示すか?
主な発見
| Method | RMSD (Å) | TM-score | lDDT |
|---|---|---|---|
| FARFAR2-best | 12.555 | 0.354 | 0.633 |
| FARFAR2-avg | 17.165 | 0.249 | 0.573 |
| E2Efold-3D | 3.486 | 0.518 | 0.739 |
- 独立した非冗長なテストセット50本のRNAで、E2Efold-3Dは平均RMSD3.486 Å、TM-score 0.518、lDDT 0.739を達成。
- E2Efold-3Dは平均TM-score0.5175を取得し、FARFAR2-avg0.249およびFARFAR2-best0.294(概算)を上回り、グローバルフォールドマッチの改善を示す。
- 平均推論時間は構造あたり0.12秒で、FARFAR2は約4,777秒/構造であり、速度の大きな利点を際立たせる。
- アブレーション研究はRNA-FM埋め込みとリサイクリングの両方がパフォーマンス向上に寄与し、RNA-FMはTM-scoreを高め、リサイクリングはRMSDの精練を支援。
- モノマーおよびRNA-Ligand複合体を含むRNA-Puzzlesベンチマークで、E2Efold-3DはRMSDとTM-scoreでコミュニティ結果を上回る最良のスコアを達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。