QUICK REVIEW

[논문 리뷰] Designing RNAs with Language Models

Milan Gautam, Ning Dai|arXiv (Cornell University)|2026. 02. 12.

RNA and protein synthesis mechanisms인용 수 0

한 줄 요약

이 논문은 RNA 설계를 사전 학습된 자기회귀 언어 모델을 사용한 조건부 시퀀스 생성으로 재구성하고, 무작위로 유도된 구조-시퀀스 쌍에 대한 감독학습과 소수의 선택된 구조 집합에 대한 강화학습을 통해 최첨단 방법보다 더 빠르게 성능을 발휘한다.

ABSTRACT

RNA design, the task of finding a sequence that folds into a target secondary structure, has broad biological and biomedical impact but remains computationally challenging due to the exponentially large sequence space and exponentially many competing folds. Traditional approaches treat it as an optimization problem, relying on per-instance heuristics or constraint-based search. We instead reframe RNA design as conditional sequence generation and introduce a reusable neural approximator, instantiated as an autoregressive language model (LM), that maps target structures directly to sequences. We first train our model in a supervised setting on random-induced structure-sequence pairs, and then use reinforcement learning (RL) to optimize end-to-end metrics. We also propose methods to select a small subset for RL that greatly improves RL efficiency and quality. Across four datasets, our approach outperforms state-of-the-art systems on key metrics such as Boltzmann probability while being 1.7x faster, establishing conditional LM generation as a scalable, task-agnostic alternative to per-instance optimization for RNA design. Our code and data are available at https://github.com/KuNyaa/RNA-Design-LM.

연구 동기 및 목표

RNA 설계(역 접힘)를 대상 구조에 조건화된 조건부 시퀀스 생성으로 재정의한다.
대상 구조를 시퀀스로 매핑하는 재사용 가능한 신경 근사기(언어 모델)를 개발한다.
생성 중 제약된 디코딩을 통해 생화학적 타당성을 강제한다.
구조-시퀀스 쌍에 대한 감독학습과 강화학습을 결합하여 접힘 지표를 최적화한다.
무작위로 유도된 SL 데이터가 테스트 세트로의 경쟁력 있는 전이를 가져오고 효율적인 구조 선택으로 확장 가능한 RL을 가능하게 함을 보인다.

제안 방법

RNA 설계를 대상 구조에 조건화된 자기회귀 LM을 사용한 조건부 시퀀스 생성으로 프레임한다.
생성 중 염기쌍 규칙을 강제하는 제약된 디코딩 메커니즘을 도입하여 유효한 설계를 보장한다.
RNA 토큰과 구조 프롬프트에 대한 최소한의 아키텍처 변경으로 사전 학습된 GPT-스타일 디코더 LM(Qwen2.5–0.5B)을 적응시킨다.
SAMFEO를 통해 생성된 대규모 무작위 유도 구조–시퀀스 데이터 세트로 감독학습을 수행하여 10M 쌍를 생성한다.
선정된 구조에서 GRPO(group-relative policy objective)를 사용하여 열역학 기반 보상을 최적화하도록 강화학습으로 미세조정한다.
샘플 다양성(AoN 및 NSD 임계값)에 따라 RL 대상으로 데이터를 기반으로 한 부분 집합 선정을 사용하여 RL 효율성과 품질을 향상시킨다.

Figure 1: RNA design is the inverse problem of RNA folding.

실험 결과

연구 질문

RQ1재사용 가능한 신경 해법으로 조건부 시퀀스 생성을 통해 RNA 설계 문제를 효과적으로 해결할 수 있는가?
RQ2제약된 디코딩과 사전 학습된 LM 적응이 주어진 대상 구조에 대해 타당하고 고품질의 RNA 설계를 산출하는가?
RQ3무작위로 유도된 구조–시퀀스 쌍에 대한 감독학습이 테스트 데이터로 일반화되고 효과적인 RL을 가능하게 하는가?
RQ4작고 다양한 RL 서브세트가 더 크고 노이즈가 많은 RL 세트에서의 학습보다 효율성과 품질 면에서 우수한가?
RQ5SL 및 RL 체제에서 Boltzmann 확률 및 엔semble-defect 기반 지표가 어떻게 작용하는가?

주요 결과

최고의 SL 모델은 N = 10^4 샘플에서 best-of-N Boltzmann 확률이 약 0.55에 달한다.
선별된 RL 서브세트에 적용된 RL은 더 크고 비필터링된 세트를 사용할 때에 비해 상당한 효율 향상(약 2.9x 속도 향상)을 가져온다.
네 개의 테스트 세트에 걸쳐 이 접근 방식은 주요 지표에서 최첨단 시스템을 능가하고 샘플링은 1.7배 더 빠르다.
10M 무작위 유도 구조–시퀀스 쌍의 대규모 SL 학습 세트는 테스트 데이터에서 경쟁력 있는 성능을 가능하게 한다.
제약된 디코딩은 유효한 설계를 보장하여 생화학적 제약을 보존한 구조 조건부 고처리 생성이 가능하게 한다.

Figure 2: We convert a general-domain LLM into an RNA designer by keeping the pretrained transformer backbone and shrinking the input and output layers. The original embedding and LM head are downsized and reinitialized to support RNA tokens.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.