[論文レビュー] HybriDNA: A Hybrid Transformer-Mamba2 Long-Range DNA Language Model
HybriDNAは、超長鎖DNA配列を単一ヌクレオチド解像度で処理するデコーダー専用のハイブリッドTransformer-Mamba2 DNA言語モデルを導入し、DNA理解ベンチマークと生成設計タスクの最先端結果を達成し、300Mから7Bパラメータ、コンテキスト長131kトークンまでのスケーリング効果を示す。
Advances in natural language processing and large language models have sparked growing interest in modeling DNA, often referred to as the "language of life". However, DNA modeling poses unique challenges. First, it requires the ability to process ultra-long DNA sequences while preserving single-nucleotide resolution, as individual nucleotides play a critical role in DNA function. Second, success in this domain requires excelling at both generative and understanding tasks: generative tasks hold potential for therapeutic and industrial applications, while understanding tasks provide crucial insights into biological mechanisms and diseases. To address these challenges, we propose HybriDNA, a decoder-only DNA language model that incorporates a hybrid Transformer-Mamba2 architecture, seamlessly integrating the strengths of attention mechanisms with selective state-space models. This hybrid design enables HybriDNA to efficiently process DNA sequences up to 131kb in length with single-nucleotide resolution. HybriDNA achieves state-of-the-art performance across 33 DNA understanding datasets curated from the BEND, GUE, and LRB benchmarks, and demonstrates exceptional capability in generating synthetic cis-regulatory elements (CREs) with desired properties. Furthermore, we show that HybriDNA adheres to expected scaling laws, with performance improving consistently as the model scales from 300M to 3B and 7B parameters. These findings underscore HybriDNA's versatility and its potential to advance DNA research and applications, paving the way for innovations in understanding and engineering the "language of life".
研究の動機と目的
- 単一ヌクレオチド分解能で超長い配列を扱うため、TransformerアテンションとSelective State Space Models (Mamba2)を組み合わせたデコーダー専用のDNAファウンデーションモデルを開発する。
- 幅広い多種種のゲノムコーパスで事前学習を行い、一般的なゲノム表現を学習する。
- 理解タスクの識別的ファインチューニングと、合成規制DNA要素を設計するための生成的ファインチューニングを実証する。
- スケーリング則とコンテキスト長の増加が性能に与える影響を調査する。
提案手法
- ハイブリッドアーキテクチャ:HybriDNA Mamba2ブロックとHybriDNA Transformerブロックを7:1の比率で交互に配置。
- HybriDNA Mamba2ブロックは状態空間デュアル性(SSD)を用い、A_tを効率化のために a_t I に簡略化、テンソル並列処理で並行処理。
- 845種を跨ぐ複数種ゲノム上で、A, C, G, Tのベースレベルトークンの次トークン予測を用いた事前学習、総トレイン160.75Bヌクレオチド、検証13.25Bヌクレオチド。
- 理解タスクのために未来コンテキスト情報を注入するエコー埋め込みを用いた識別的ファインチューニング。
- タスク特化のプロンプトトークンを用いた生成的ファインチューニングで、制御された配列生成を可能にする。
- 8kから32k、131kトークンへと段階的にコンテキスト長を暖機する2段階の事前学習。
実験結果
リサーチクエスチョン
- RQ1HybriDNAは複数種に跨る短距離および長距離のDNA理解ベンチマークで最先端のパフォーマンスを達成できるか?
- RQ2純粋なトランスフォーマーやSSMのみのアプローチと比較して、ハイブリッドTransformer-Mamba2アーキテクチャは超長いDNA配列に対する効率性とスケーラビリティを改善するか?
- RQ3モデルサイズとコンテキスト長が性能にどう影響するか、HybriDNAに対してスケーリング則は成り立つか?
- RQ4HybriDNAは種を跨いで現実的で望ましいシス調節要素を生成できるか?
主な発見
| タイプ | モデル | PD(H) | CPD(H) | SS(H) | TF(H) | TF(M) | EMP(Y) | CV(V) |
|---|---|---|---|---|---|---|---|---|
| Decoder | HybriDNA-300M | 83.29 | 68.87 | 87.74 | 68.37 | 75.32 | 67.38 | 73.81 |
| Decoder | HybriDNA-300M (E) | 83.67 | 69.96 | 88.72 | 69.70 | 75.73 | 68.25 | 73.90 |
| Decoder | HybriDNA-3B | 85.40 | 69.50 | 89.01 | 70.48 | 75.43 | 69.06 | 74.05 |
| Decoder | HybriDNA-3B (E) | 85.55 | 70.71 | 89.10 | 71.13 | 77.14 | 68.97 | 74.88 |
| Decoder | HybriDNA-7B | 86.53 | 71.37 | 90.09 | 70.72 | 78.02 | 63.05 | 74.02 |
| Decoder | HybriDNA-7B (E) | 88.10 | 72.03 | 90.12 | 72.01 | 79.02 | 65.30 | 74.30 |
- HybriDNAは33のDNA理解データセットで最先端の性能を達成し、エコー埋め込みファインチューニングで最大35に達する。
- 300Mから3B、7Bパラメータへスケーリングすると、ベンチマークで一貫した性能向上を得られる。
- 長いコンテキスト処理(最大131kトークン)が長距離タスクの性能を向上させる。
- HybriDNAは酵母プロモーターや細胞種特異的なヒトエンハンサーなど、合成CRE設計において強力な生成能力を示す。
- エコー埋め込みは理解タスクの識別性能を向上させる。
- エコー埋め込みを用いたモデルバリアントは、いくつかのタスクで指標の改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。