[論文レビュー] Caduceus: Bi-Directional Equivariant Long-Range DNA Sequence Modeling
本論文は、BiMambaとMambaDNAブロックから構築された RC対応の双方向長距離DNA言語モデルのファミリである Caduceus を提案し、競合Transformerよりも最大10倍小さなモデルでゲノムタスクにおける最先端の性能を達成します。
Large-scale sequence modeling has sparked rapid advances that now extend into biology and genomics. However, modeling genomic sequences introduces challenges such as the need to model long-range token interactions, the effects of upstream and downstream regions of the genome, and the reverse complementarity (RC) of DNA Here, we propose an architecture motivated by these challenges that builds off the long-range Mamba block, and extends it to a BiMamba component that supports bi-directionality, and to a MambaDNA block that additionally supports RC equivariance. We use MambaDNA as the basis of Caduceus, the first family of RC equivariant bi-directional long-range DNA language models, and we introduce pre-training and fine-tuning strategies that yield Caduceus DNA foundation models. Caduceus outperforms previous long-range models on downstream benchmarks; on a challenging long-range variant effect prediction task, Caduceus exceeds the performance of <mml:math xmlns:mml="http://www.w3.org/1998/Math/MathML"><mml:mrow><mml:mn>10</mml:mn> <mml:mi>x</mml:mi></mml:mrow> </mml:math> larger models that do not leverage bi-directionality or equivariance. Code to reproduce our experiments is available here.
研究の動機と目的
- 長距離コンテキストと双方向性、および逆相補対称性の恩恵を受けるゲノム配列モデリングを動機づける。
- RC対応DNAモデリングのために BiMamba を BiMamba と MambaDNA に拡張する効率的なアーキテクチャモジュールを開発する。
- ゲノミクスのベンチマークでの性能を最大化するために Caduceus 基盤モデルと事前学習/後処理戦略を作成する。
- RC対応の双方向モデリングが長距離変異効果予測タスクで優れた性能を発揮することを示す。
提案手法
- 長距離 Mamba ブロックを BiMamba に拡張し、前向きと逆向きのパス間でほとんどの投影重みを共有することで双方向処理を可能にする。
- シーケンスとその RC を共有パラメータブロックで処理し、出力を結合することで逆相補対称性を課す MambaDNA を導入する。
- BiMamba と MambaDNA を RC対応埋め込みと RC対応LMヘッドと組み合わせて Caduceus を形成し、RC対応DNA基盤モデルを実現する。
- RC対応モデリングの2つのバリアントを提供する:Caduceus-PS(パラメータ共有)と Caduceus-Ph(下流タスクの後付結合)。
- Caduceus-PS は人類ゲノム上でマスクド言語モデリングを用いて事前学習を行い、RC対称性を活用してRCデータ増強なしで RC対応予測を実現する。
- ゲノミクスのベンチマークと長距離変異効果予測を評価し、HyenaDNA および Transformer ベースラインと比較する。
実験結果
リサーチクエスチョン
- RQ1RC対応の双方向アーキテクチャは、単方向または非対称モデルと比較して長距離ゲノム配列モデリングを改善するか。
- RQ2 BiMamba による双方向性のパラメータ共有は、同等のモデルサイズで事前学習と下流タスクに利点をもたらすか。
- RQ3RC対応性(MambaDNA)は事前学習の損失と変異効果・規制タスクの下流性能にどのような影響を与えるか。
- RQ4RC対応の Caduceus バリアントは、長距離ゲノムタスクで大規模な Transformer ベースまたは非対称モデルを大幅に上回るか。
主な発見
| Task | CNN | HYENADNA | MAMBA | CADUCEUS W/O EQUIV. | CADUCEUS-PH | CADUCEUS-PS |
|---|---|---|---|---|---|---|
| MOUSE ENHANCERS | 0.715 ±0.087 | 0.780 ±0.025 | 0.743 ±0.054 | 0.770 ±0.058 | 0.754 ±0.074 | 0.793 ±0.058 |
| CODING VS INTERGENOMIC | 0.892 ±0.008 | 0.904 ±0.005 | 0.904 ±0.004 | 0.908 ±0.003 | 0.910 ±0.003 | 0.915 ±0.003 |
| HUMAN VS WORM | 0.942 ±0.002 | 0.964 ±0.002 | 0.967 ±0.002 | 0.970 ±0.003 | 0.973 ±0.001 | |
| HUMAN ENHANCER COHN | 0.702 ±0.021 | 0.729 ±0.014 | 0.732 ±0.029 | 0.741 ±0.008 | 0.747 ±0.004 | 0.745 ±0.007 |
| HUMAN ENHANCER ENSEMBL | 0.744 ±0.122 | 0.849 ±0.006 | 0.862 ±0.008 | 0.883 ±0.002 | 0.893 ±0.008 | 0.900 ±0.006 |
| HUMAN REGULATORY | 0.872 ±0.005 | 0.869 ±0.012 | 0.814 ±0.211 | 0.871 ±0.007 | 0.872 ±0.011 | 0.873 ±0.007 |
| HUMAN OCR ENSEMBL | 0.698 ±0.013 | 0.783 ±0.007 | 0.815 ±0.002 | 0.818 ±0.003 | 0.828 ±0.006 | 0.818 ±0.006 |
| HUMAN NONTATA PROMOTERS | 0.861 ±0.009 | 0.944 ±0.002 | 0.933 ±0.007 | 0.933 ±0.006 | 0.946 ±0.007 | 0.945 ±0.010 |
- Caduceus モデルは、同程度のサイズの既存の SSM ベースモデルより下流のゲノミクスベンチマークで優れている。
- Caduceus-Ph は評価されたバリアントの中で Genomics Benchmarks 全体の最良の成績をしばしば達成する。
- RC対応をパラメータ共有と RC データ対称予測で実現した Caduceus-PS は長距離の変異効果予測タスクで優れ、より大きなベースラインを凌駕する。
- Nucleotide Transformer Tasks では、Caduceus-Ph はサイズに見合うベースラインと同等かそれを上回ることが多く、ヒストン・規制タスクの点で HyenaDNA を上回る傾向がある。一部のタスクでは他のアプローチが有利。
- 長距離の変異効果予測(TSS からの距離)では、Caduceus-PS が強い利益を示し、非常に遠い規制コンテキストで Enformer をも上回ることもある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。