[논문 리뷰] RNAFlow: RNA Structure & Sequence Design via Inverse Folding-Based Flow Matching
RNAFlow는 역 folding 디노이저를 사전 학습된 RF2NA 구조 예측기와 통합하여 단백질 조건의 흐름 일치 모델로 RNA 서열과 구조를 함께 설계하며, 무거운 구조 예측기를 미세조정하지 않고도 구성적 차원을 인지하는 RNA 설계를 가능하게 한다.
The growing significance of RNA engineering in diverse biological applications has spurred interest in developing AI methods for structure-based RNA design. While diffusion models have excelled in protein design, adapting them for RNA presents new challenges due to RNA's conformational flexibility and the computational cost of fine-tuning large structure prediction models. To this end, we propose RNAFlow, a flow matching model for protein-conditioned RNA sequence-structure design. Its denoising network integrates an RNA inverse folding model and a pre-trained RosettaFold2NA network for generation of RNA sequences and structures. The integration of inverse folding in the structure denoising process allows us to simplify training by fixing the structure prediction network. We further enhance the inverse folding model by conditioning it on inferred conformational ensembles to model dynamic RNA conformations. Evaluation on protein-conditioned RNA structure and sequence generation tasks demonstrates RNAFlow's advantage over existing RNA design methods.
연구 동기 및 목표
- RNA의 구성적 동역학을 고려하는 AI 기반 RNA 설계를 촉진한다.
- 큰 구조 예측기를 미세조정하지 않고도 단백질 조건의 RNA 서열-구조 설계 방법을 개발한다.
- 플로우 매칭 목표 내에서 역 folding 디노이저를 활용해 정렬된 RNA 서열과 구조를 생성한다.
- 설계 중 RNA 동역학을 더 잘 모델링하기 위해 구성적 집합(콘포메이셔널 앙상블)을 포함한다.
- 단백질 조건의 RNA 설계 과제와 GRK2 모티프-스캐폴드된 어프타머 설계를 평가한다.
제안 방법
- RNA 역folding 모델(Noise-to-Seq)과 사전 학습된 RF2NA 백본 예측기로 구성된 노이즈 제거 네트워크를 포함한 조건부 플로우 매칭 프레임워크를 사용한다.
- 노이즈-백본 보간을 샘플링하고, 노이즈 제거된 RNA 서열을 예측하며, RF2NA로 접어 구조를 얻고 좌표에 대한 공동 MSE와 뉴클리오타이드에 대한 교차 엔트로피를 최적화하는 방식으로 학습한다.
- 학습 중 RF2NA를 고정하여 효율성을 얻고 Noise-to-Seq를 통해 Gumbel-Softmax로 그래디언트를 전달한다.
- RF2NA와 Noise-to-Seq로 포즈 추측을 반복적으로 다듬어 RNAFlow-Base를 추론하고, Traj-to-Seq 모듈을 통해 추정된 구성 앙상블로 조건화하는 RNAFlow-Traj로 확장한다.
- 궤적에서 다수의 RNA 구성체를 다루기 위해 Traj-to-Seq를 도입하고, 서열 예측을 위한 다중 그래프 입력을 생성한다.
- 높은 예측 회복 확률(≥30%)을 가지는 설계들을 선택하도록 출력 재평가(rescoring) 모델을 학습한다.
- RNA 및 단백질 백본을 그래프 구조 데이터로 표현하고 GVP-GNN 인코더/디코더를 사용하며, 손실 계산 전에 구조를 정렬하기 위해 Kabsch 정렬을 사용한다.
실험 결과
연구 질문
- RQ1단백질 구조에 조건화된 플로우 매칭 접근법이 원하는 구조로 접히는 RNA 서열과 백본을 효과적으로 생성할 수 있는가?
- RQ2Traj-to-Seq를 통한 구성 앙상블의 포함이 단일 구조 설계에 비해 네이티브 서열 회복 및 구조 정확도를 향상시키는가?
- RQ3RF2NA 기반 평가에서 구조 RMSD, lDDT 및 서열 회복 측면에서 diffusion 기반 및 시퀀스-전용 baselines와 비교하여 RNAFlow는 어떤가?
- RQ4큰 구조 예측기를 미세조정하지 않고도 효율적인 학습이 가능하도록 역 folding 디노이저가 충분한가?
- RQ5Motif-스캐폴드 제약을 사용해 현실적인 GRK2-결합 어프타머를 RNAFlow가 생성할 수 있는가?
주요 결과
- RNAFlow-Base 및 RNAFlow-Traj는 RF2NA 사전 학습 및 서열 유사도 분할 전반에 걸쳐 구조 생성(RMSD 및 lDDT)에서 베이스라인을 능가한다.
- RNAFlow-Base + Rescore 및 RNAFlow-Traj + Rescore는 구조 지표를 추가로 향상시키며, RMSD와 lDDT에서 베이스라인 대비 두드러진 이득을 보인다.
- RNAFlow는 LSTM 및 MMDiff 베이스라인보다 더 높은 네이티브 서열 회복률을 달성하며, RF2NA 분할(test)에서 RNAFlow-Base + Rescore가 0.33, RNAFlow-Traj + Rescore가 0.37에 도달했다.
- RNAFlow-Traj는 일반적으로 RNAFlow-Base보다 더 나은 서열 회복을 보이며, Traj-to-Seq는 많은 사례에서 구성 정보 활용으로 설계 품질을 높인다.
- 모티프-스캐폴드 GRK2 설계에서 RNAFlow-Trajectory가 테스트 방법 중 최고의 RMSD(7.09)와 회복(0.54)을 달성하여 모티프 가이드 어프타머 설계에서의 효과를 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.