[논문 리뷰] Multi-modal Transfer Learning between Biological Foundation Models
IsoFormer은 DNA, RNA, 단백질 인코더를 연결하는 최초의 다중 모달 모델로, 조직 간 RNA 트랜스크립트 아이소폼 발현을 예측하며, 모달 간 지식 전달로 최첨단 결과를 달성합니다.
Biological sequences encode fundamental instructions for the building blocks of life, in the form of DNA, RNA, and proteins. Modeling these sequences is key to understand disease mechanisms and is an active research area in computational biology. Recently, Large Language Models have shown great promise in solving certain biological tasks but current approaches are limited to a single sequence modality (DNA, RNA, or protein). Key problems in genomics intrinsically involve multiple modalities, but it remains unclear how to adapt general-purpose sequence models to those cases. In this work we propose a multi-modal model that connects DNA, RNA, and proteins by leveraging information from different pre-trained modality-specific encoders. We demonstrate its capabilities by applying it to the largely unsolved problem of predicting how multiple RNA transcript isoforms originate from the same gene (i.e. same DNA sequence) and map to different transcription expression levels across various human tissues. We show that our model, dubbed IsoFormer, is able to accurately predict differential transcript expression, outperforming existing methods and leveraging the use of multiple modalities. Our framework also achieves efficient transfer knowledge from the encoders pre-training as well as in between modalities. We open-source our model, paving the way for new multi-modal gene expression approaches.
연구 동기 및 목표
- DNA, RNA 및 단백질 서열의 다중 모달 통합을 촉진하고 활용하여 상호 연결된 생물학적 신호를 포착.
- 사전 학습된 모달리티별 인코더를 활용하는 일반적인 다중 모달 집계 프레임워크를 개발.
- 다중 모달 학습이 조직 간 RNA 트랜스크립트 아이소폼 발현 예측을 개선함을 입증.
- 모달 간 학습 전이 및 인코더 선택을 평가하고, 모달 간 및 내부 전이의 이점을 보여줌.
- IsoFormer를 오픈 소스로 제공하여 생물학의 추가 다중 모달 시퀀스 모델링을 촉진.
제안 방법
- DNA, RNA, 단백질의 세 사전 학습 인코더를 사용하여 임베딩을 생성합니다.
- 잉여 연결(residual connections)을 갖춘 교차 주의 기반 집계 모듈을 도입하여 모달리티별 다중 모달 임베딩을 생성합니다.
- 모달별 다중 모달 임베딩을 하나의 h_multi로 연결하여 다운스트림 예측에 사용합니다.
- MSE 손실을 사용하여 조직 간 트랜스크립트 아이소폼 발현을 예측하는 IsoFormer 헤드를 사용해 엔드투엔드로 학습합니다.
- 다양한 모달리티 조합과 집계 전략을 비교하고, 사전 학습 인코더로부터의 전달(전이)을 평가합니다.
실험 결과
연구 질문
- RQ1DNA, RNA, 단백질의 세 가지 모달리티 인코더 프레임워크가 단일 모달 모델보다 아이소폼 발현 예측을 향상시킬 수 있는가?
- RQ2교차 주의 기반 집계가 다중 모달 생물학 임베딩을 효과적으로 융합하고 엔드투엔드 학습을 가능하게 하는가?
- RQ3사전 학습된 인코더가 기여하는 바가 얼마나 크며, 모달 간 전달이 유익한가?
- RQ4DNA 인코더 선택(예: Enformer 대 NT)이 아이소폼 예측 작업으로의 전달에 어떤 영향을 미치는가?
주요 결과
| 모델 입력 | R^2 | 스피어만 |
|---|---|---|
| DNA only | 0.13 ± 0.02 | 0.43 ± 0.01 |
| RNA only | 0.36 ± 0.03 | 0.61 ± 0.01 |
| Protein only | 0.20 ± 0.01 | 0.46 ± 0.01 |
| DNA + Protein | 0.28 ± 0.01 | 0.52 ± 0.01 |
| DNA + RNA | 0.39 ± 0.01 | 0.64 ± 0.01 |
| DNA + RNA + Protein | 0.43 ± 0.01 | 0.65 ± 0.01 |
- 가장 성능이 좋은 모델은 세 가지 모달리티(DNA + RNA + Protein)를 사용하여 R^2 = 0.43 ± 0.01 및 Spearman = 0.65 ± 0.01를 달성합니다.
- DNA 인코더로 Enformer를 사용하면 IsoFormer에서 가장 강력한 결과를 얻습니다(R^2 = 0.53 ± 0.01, Spearman = 0.72 ± 0.00).
- 교차 주의에 기반한 집계 전략이 이 작업에서 Perceiver Resampler 변형 및 C-Abstractor와 같은 대안들을 능가합니다.
- 사전 학습 인코더는 상당한 이점을 제공합니다; 모든 인코더를 사전 학습시키면 R^2 = 0.53 및 Spearman = 0.71이고, 전혀 사전 학습되지 않으면 R^2 = 0.10 및 Spearman = 0.31입니다.
- 전이는 내부 모달(한 모달리티 내 사전 학습)과 외부 모달(모달 간 정보 활용) 모두에서 관찰됩니다.
- Enformer DNA 인코더를 가진 IsoFormer는 강력한 모달 간 전이 및 장거리 맥락 이점을 보여줍니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.