[논문 리뷰] Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
이 논문은 BiMamba 및 MambaDNA 블록으로 구축된 RC-등방성의 양방향 장거리 DNA 언어 모델 계열인 Caduceus를 소개하며, 경쟁 Transformer보다 최대 10x 더 작은 모델로 게놈 작업에서 최첨단 성능을 달성한다.
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML"><mml:mrow><mml:mn>10</mml:mn> <mml:mi>x</mml:mi></mml:mrow> </mml:math> larger models that do not leverage bi-directionality or equivariance. Code to reproduce our experiments is available here.
연구 동기 및 목표
- 길고-range 맥락, 양방향성, 역보완 대칭성으로 이로운 게놈 서열 모델링 동기를 부여한다.
- RC-등방성 DNA 모델링을 위해 BiMamba를 BiMamba 및 MambaDNA로 확장하는 효율적 아키텍처 모듈을 개발한다.
- 유전학 벤치마크에서 성능을 극대화하기 위한 Caduceus 기초 모델과 프리-/포스트 트레이닝 전략을 만든다.
- RC-등방성 양방향 모델링이 장거리 변이 효과 예측 작업에서 우수한 성능을 나타냄을 입증한다
제안 방법
- 긴-range Mamba 블록을 BiMamba로 확장하여 순방향 및 역방향 처리 간의 대부분 투영 가중치를 공유함으로써 양방향 처리를 가능하게 한다.
- 시퀀스와 그 RC를 공유 매개변수 블록에서 처리하고 출력을 연결(concatenate)하여 RC 등방성을 강제하기 위해 MambaDNA를 도입한다.
- BiMamba와 MambaDNA를 RC-등방성 임베딩 및 RC-등방성 LM 헤드와 결합하여 RC-등방성 DNA 기초 모델인 Caduceus를 형성한다.
- 두 가지 RC-등방성 모델링 변형: Caduceus-PS(매개변수 공유)와 Caduceus-Ph(하류 작업을 위한 사후 결합)
- 사람 게놈에서 마스킹 언어 모델링으로 프리트레이닝하여 RC 대칭을 활용해 Caduceus-PS에 대해 RC 데이터 증강 없이 RC 등방성 예측을 가능하게 한다.
- 게놈 벤치마크 및 장거리 변이 효과 예측에서 HyenaDNA 및 Transformer 베이스라인과 비교하여 평가한다.
실험 결과
연구 질문
- RQ1RC-등방성 양방향 아키텍처가 단방향 또는 비등방성 모델에 비해 장거리 게놈 서열 모델링을 개선할 수 있는가?
- RQ2BiMamba의 매개변수 공유를 통한 양방향성은 동일 모델 규모에서 프리트레이닝 및 다운스트림 작업에 이점을 제공하는가?
- RQ3RC 등방성(MambaDNA)이 프리트레이닝 손실 및 변이 효과 및 조절 작업에서의 다운스트림 성능에 어떤 영향을 미치는가?
- RQ4RC-등방성 변형인 Caduceus는 훨씬 큰 Transformer 기반 또는 비등방성 모델보다 장거리 게놈 작업에서 더 나은 성능을 보이는가?
주요 결과
| 작업 | CNN | HYENADNA | MAMBA | CADUCEUS W/O EQUIV. | CADUCEUS-PH | CADUCEUS-PS |
|---|---|---|---|---|---|---|
| 마우스 인핸서 | 0.715 ±0.087 | 0.780 ±0.025 | 0.743 ±0.054 | 0.770 ±0.058 | 0.754 ±0.074 | 0.793 ±0.058 |
| 코딩 대 인터제놈 간 비교 | 0.892 ±0.008 | 0.904 ±0.005 | 0.904 ±0.004 | 0.908 ±0.003 | 0.910 ±0.003 | 0.915 ±0.003 |
| 인간 대 벌레 | 0.942 ±0.002 | 0.964 ±0.002 | 0.967 ±0.002 | 0.970 ±0.003 | 0.973 ±0.001 | |
| 인간 증강자 COHN | 0.702 ±0.021 | 0.729 ±0.014 | 0.732 ±0.029 | 0.741 ±0.008 | 0.747 ±0.004 | 0.745 ±0.007 |
| 인간 증강체 ENSEMBL | 0.744 ±0.122 | 0.849 ±0.006 | 0.862 ±0.008 | 0.883 ±0.002 | 0.893 ±0.008 | 0.900 ±0.006 |
| 인간 규제 요소 | 0.872 ±0.005 | 0.869 ±0.012 | 0.814 ±0.211 | 0.871 ±0.007 | 0.872 ±0.011 | 0.873 ±0.007 |
| 인간 OCR ENSEMBL | 0.698 ±0.013 | 0.783 ±0.007 | 0.815 ±0.002 | 0.818 ±0.003 | 0.828 ±0.006 | 0.818 ±0.006 |
| 인간 NONTATA 프로모터 | 0.861 ±0.009 | 0.944 ±0.002 | 0.933 ±0.007 | 0.933 ±0.006 | 0.946 ±0.007 | 0.945 ±0.010 |
- Caduceus 모델은 유사한 크기의 이전 SSM 기반 모델보다 다운스트림 게놈 벤치마크에서 우수한 성능을 보인다.
- Caduceus-Ph는 평가된 변형 중 Genomics Benchmarks에서 일반적으로 최상의 전체 성능을 달성한다.
- RC 등방성 가중치 공유 및 RC 데이터-대칭 예측을 통해 RC 등방성을 강제하는 Caduceus-PS는 장거리 변이 효과 예측 작업에서 대형 기준 모델을 능가하는 성능을 보인다.
- 뉴클레이테이터 트랜스포머 작업에서 Caduceus-Ph는 동일한 크기의 베이스라인과 일치하거나 뛰어나며, 히스톤 및 조절 작업에서 종종 HyenaDNA를 능가하는 경향을 보이며 일부 작업에서 대체 방법이 우세하다.
- 장거리 변이 효과 예측(프로모터에서 TSS까지 거리)에서 Caduceus-PS는 매우 먼 조절 맥락에서도 강력한 이득을 보이며 Enformer를 능가하기도 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.