[論文レビュー] RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching
RNAFlowは、タンパク質条件付きのフローマッチングモデルであり、逆折り畳みデノイザーと事前訓練済みRF2NA構造予測器を統合することでRNA配列と構造を共同設計し、重い構造予測器のファインチューニングなしに構象を意識したRNA設計を可能にする。
The growing significance of RNA engineering in diverse biological applications has spurred interest in developing AI methods for structure-based RNA design. While diffusion models have excelled in protein design, adapting them for RNA presents new challenges due to RNA's conformational flexibility and the computational cost of fine-tuning large structure prediction models. To this end, we propose RNAFlow, a flow matching model for protein-conditioned RNA sequence-structure design. Its denoising network integrates an RNA inverse folding model and a pre-trained RosettaFold2NA network for generation of RNA sequences and structures. The integration of inverse folding in the structure denoising process allows us to simplify training by fixing the structure prediction network. We further enhance the inverse folding model by conditioning it on inferred conformational ensembles to model dynamic RNA conformations. Evaluation on protein-conditioned RNA structure and sequence generation tasks demonstrates RNAFlow's advantage over existing RNA design methods.
研究の動機と目的
- RNAの立体配座ダイナミクスを考慮したAI駆動のRNA設計を動機づける。
- 巨大な構造予測器をファインチューニングせずにタンパク質条件付きのRNA配列・構造設計法を開発する。
- フロー・マッチング目的の中で逆折り畳みデノイザーを活用して、RNA配列と構造を整合させて生成する。
- 設計時にRNAのダイナミクスをより良くモデル化するために構象エンサンブルを組み込む。
- タンパク質条件付きRNA設計タスクとGRK2モチーフ・スキャフォールド設計で評価する。
提案手法
- RNA逆折り畳みモデル(Noise-to-Seq)と事前訓練済みRF2NA主幹予測器を含むデノイジングネットワークを備えた条件付きフローメッチング枠組みを使用する。
- ノイズ-バックボーン補間をサンプリングし、デノイズされたRNA配列を予測し、RF2NAで折り畳みを行ってデノイズされた構造を得て、座標のMSEとヌクレオチドのクロスエントロピーを結合して最適化して訓練する。
- 訓練中にRF2NAを固定して効率性を高め、Gumbel-Softmaxを介してNoise-to-Seqを介して勾配を伝播させる。
- RNAFlow-BaseをRF2NAとNoise-to-Seqを用いて位姿推定を反復的に精練して推定することで推定する;Traj-to-Seqモジュールを介して推定された構象エンサンブルを条件付けするRNAFlow-Trajを拡張する。
- トラジェクトリから複数のRNA構象を扱うTraj-to-Seqを導入し、配列予測のためのマルチグラフ入力を作成する。
- 設計の回復確率(≥30%)が高いものを選ぶ出力再スコアリングモデルを訓練する。
- RNAとタンパク質のバックボーンをグラフ構造データとして表現し、GVP-GNNエンコーダ/デコーダを用い、損失計算前に構造をKabsch整列で整列させる。
実験結果
リサーチクエスチョン
- RQ1タンパク質構造条件付けのフローメッチングアプローチは、望む構造に折り畳むRNA配列とバックボーンを効果的に生成できるか。
- RQ2Traj-to-Seqを介して構象エンサンブルを組み込むことは、単一構造設計と比較してNative配列回復と構造精度を改善するか。
- RQ3RNAFlowは、RF2NAベースの評価の下で、拡散ベースおよび単一配列ベースのベースラインと比較して構造RMSD、lDDT、配列回復でどのように比較されるか。
- RQ4巨大な構造予測器をファインチューニングせずに、逆折り畳みデノイザーは訓練を効率化できるか。
- RQ5RNAFlowはモチーフスキャフォールド制約を用いたGRK2結合アプタマー生成を現実的に可能にするか。
主な発見
| Method | RF2NA Pre-Training Split RMSD | RF2NA Pre-Training Split lDDT | Sequence Similarity Split RMSD | Sequence Similarity Split lDDT |
|---|---|---|---|---|
| Conditional MMDiff | 14.82±1.01 | 0.34±0.02 | 17.42±0.86 | 0.38±0.01 |
| RNAFlow-Base | 12.85±0.63 | 0.51±0.01 | 14.77±0.34 | 0.57±0.01 |
| RNAFlow-Traj | 13.12±0.64 | 0.52±0.01 | 15.11±0.33 | 0.57±0.00 |
| RNAFlow-Base + Rescore | 10.61±1.73 | 0.53±0.03 | 14.60±1.05 | 0.56±0.02 |
| RNAFlow-Traj + Rescore | 15.30±1.89 | 0.52±0.03 | 15.31±0.93 | 0.56±0.02 |
| RF2NA [Upper Bound] | 4.67±1.29 | 0.76±0.04 | 9.83±1.69 | 0.79±0.02 |
- RNAFlow-BaseとRNAFlow-Trajは、RF2NA前訓練および配列類似性分割において構造生成(RMSDおよびlDDT)でベースラインを上回る。
- RNAFlow-Base + RescoreとRNAFlow-Traj + Rescoreはさらに構造指標を改善し、ベースラインよりもRMSDとlDDTで顕著な向上を示す。
- RNAFlowはLSTMおよびMMDiffベースラインよりNative配列回復が高く、RNAFlow-Base + RescoreはRF2NA分割で0.33、RNAFlow-Traj + Rescoreは0.37に達する(テスト)。
- RNAFlow-Trajは一般にRNAFlow-Baseより配列回復が高く、Traj-to-Seqは構象情報を活用して設計品質を多くのケースで向上させる。
- モチーフスキャフォールドGRK2設計では、RNAFlow-Trajectoryがテストメソッド中で最良のRMSD(7.09)と回復率(0.54)を達成し、モチーフ誘導アプタマー設計の有効性を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。